Robots Exclusion Standard

Robots Exclusion Standard(RES) または Robots Exclusion Protocol は、クローラやボットがウェブサイト全体またはその一部を走査することを防ぐ規約である。ロボット排除規約、robots.txt プロトコルとも呼ばれる。こういったボットは検索エンジンがウェブサイトの内容を分類しアーカイブするために主に使ったり、ウェブマスターがソースコードを校正するために使ったりする。直接の関係はないが、逆にボットを案内する目的のSitemapsと組み合わせて使うこともできる。

歴史

"robots.txt" は、1994年ごろWebCrawlerという検索エンジンで働いていた Martijn Koster が考案したとされている。1994年6月に [email protected] というメーリングリストのメンバーが合意して生まれた。"robots.txt" はその翌年AltaVistaなどの検索エンジンが登場すると共に一般化していった。

2007年11月30日、ACAP (Automated Content Access Protocol) v1.0 が Robots Exclusion Standard を補完するものとして登場した。ただしGoogleなど主要検索エンジンは、その採用を表明していない。

2019年、GoogleがIETFでの標準化を進めることを発表し、2022年9月、RFC 9309として提案された。

概要

ウェブサイトの所有者がボットに対して指示したい場合、そのウェブサイトの階層のルートに robots.txt というテキストファイルを置く(例えば、www.example.com/robots.txt)。サイト側の指示に従う選択をしているボットは、まずこのファイルにアクセスし、その指示を読み込んで、それに従ってそのウェブサイトの他のファイルの読み込みを行う。このファイルがない場合、ボットはそのサイトの所有者が特に何も指示していないと判断する。

robots.txt はボットに対して特定のファイルやディレクトリを検索しないよう指示する。これは例えば、検索エンジンからプライバシーに関わる情報を守る場合、指定したファイルやディレクトリの内容がサイトの分類をする際に誤解を与える虞がある場合、特定のアプリケーションのみが読み込むことを意図したデータの場合などがある。

下位ドメインがあるウェブサイトでは、各下位ドメインごとに robots.txt ファイルが必要である。example.com に robots.txt があっても、a.example.com になければ、example.com の robots.txt の内容は a.example.com には適用されない。

欠点

このプロトコルは全く拘束力がない。あくまでもボット側が協力することが前提であり、robots.txt で指定したからといってプライバシーが保たれることを保証するものではない。robots.txt で見られたくないファイルを指定したとしても、ウェブブラウザを使えば世界中の誰でもそのファイルを閲覧できる。また、このプロトコルを無視するボットを運用することも可能である。

なお、robots.txt に書かれたパターンは単純にパス名の部分と一致するかどうかで判断されるため、ディレクトリを指定する場合は最後に '/' を付けておかないと同じ文字列を含む任意のファイルとマッチする可能性がある。

ワイルドカード "*" を指定した例。あらゆるボットが全ファイルを走査できる。

User-agent: * Disallow: 

あらゆるボットが全ファイルを走査できないようにした例。

User-agent: * Disallow: / 

あらゆるボットが4つのディレクトリ配下を見ないよう指定した例。

User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /tmp/ Disallow: /private/ 

特定のクローラが特定のディレクトリ配下に行かないよう指定した例。

User-agent: BadBot # replace the 'BadBot' with the actual user-agent of the bot Disallow: /private/ 

あらゆるボットが特定のファイルを見ないよう指定した例。

User-agent: * Disallow: /directory/file.html 

この場合、そのディレクトリ配下の他のファイルはボットから隠蔽されない。

"#" からその行末まではコメントとして扱われる。

# Comments appear after the "#" symbol at the start of a line, or after a directive User-agent: * # match all bots Disallow: / # keep them out 

規格外の拡張

Crawl-delay ディレクティブ

いくつかの主要なクローラは Crawl-delay というパラメータをサポートしている。同一サーバに要求を繰り返す場合に指定された時間だけ待つよう指示するものである。

User-agent: * Crawl-delay: 10 

Allow ディレクティブ

いくつかの主要なクローラは Allow ディレクティブをサポートしており、それに続く Disallow ディレクティブの逆の作用をする。これは、あるディレクトリ全体を隠蔽したいが、その中の一部ファイルだけは隠蔽したくないという場合に使う。標準的実装では常に先に書いてあるディレクティブが優先されるが、Googleは Allow のパターンを全て先に評価し、その後 Disallow のパターンを評価する。Bing は AllowDisallow も最も具体的なものを優先する。

あらゆるボットで互換な動作にするには、あるファイルへのアクセスを許す Allow ディレクティブを先に書き、そのファイルを含むディレクトリについての Disallow ディレクティブを後に書く。以下に例を挙げる。

Allow: /folder1/myfile.html Disallow: /folder1/ 

この場合、/folder1/ というディレクトリの /folder1/myfile.html というファイル以外は隠蔽する。Googleに対しては順序は重要ではない。

Sitemap ディレクティブ

一部のクローラは Sitemap ディレクティブをサポートしており、1つの robots.txt の中で複数のSitemapsを指定できる。

Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: https://www.google.com/hostednews/sitemap_index.xml 

拡張規格

Extended Standard for Robot Exclusion と題してRESの拡張規格が提案されている。追加されたディレクティブとしては Visit-timeRequest-rate がある。例えば次のようになる。

User-agent: * Disallow: /downloads/ Request-rate: 1/5         # maximum rate is one page every 5 seconds Visit-time: 0600-0845     # only visit between 06:00 and 08:45 UTC (GMT) 

脚注・出典

関連項目

外部リンク

Tags:

Robots Exclusion Standard 歴史Robots Exclusion Standard 概要Robots Exclusion Standard 欠点Robots Exclusion Standard 規格外の拡張Robots Exclusion Standard 拡張規格Robots Exclusion Standard 脚注・出典Robots Exclusion Standard 関連項目Robots Exclusion Standard 外部リンクRobots Exclusion StandardSitemapsインターネットボットウェブサイトクローラ検索エンジン

🔥 Trending searches on Wiki 日本語:

プチエンジェル事件哀れなるものたち (映画)救命病棟24時の登場人物任天堂2月27日HUNTER×HUNTER石川佳純林陵平松下由樹岡田紗佳清原果耶オードリー (お笑いコンビ)YOASOBI吉川愛NewJeans髙木翔斗北香那EFLカップ杉本彩岡崎慎司夏目漱石アドルフ・ヒトラードナルド・トランプ上白石萌歌石丸伸二中島健人ドクターX〜外科医・大門未知子〜たぬかな星野源北海道道枝駿佑メディパルホールディングスYouTubeお別れホスピタル訃報 2024年2月ジョージア (国)麻生太郎夢で逢えたら櫻坂46松田優作美空ひばりMrs. GREEN APPLE1リットルの涙 (テレビドラマ)忍たま乱太郎新垣結衣永井大機動戦士ガンダムSEEDの登場人物三浦皇成岡留英貴石原裕次郎岐南町春になったら (テレビドラマ)二宮和也明石家さんま芥川龍之介吉本総合芸能学院天璋院宮澤喜一佐々木舞音始皇帝魔法少女にあこがれて連続テレビ小説佐々木俊輔智ノ花伸哉政治倫理審査会ドラえもん映画作品市川実日子羽鳥慎一アストリッドとラファエル 文書係の事件録PSYCHO-PASS サイコパスアンミカ2 Girls 1 Cupカリナ (歌手)エイリアン (映画)大道寺あや子徳川綱吉Vaundy松田ゆう姫🡆 More