でもやるんだよ

【入門】robots.txtとは? 書き方・設置場所・ disallowなど

この記事を書いた人

りょすけ@でもやるんだよ

【でもやるんだよ】の代表です。元エンジニアでReactとかRailsとかは人並みに書けます。プログラミングを5年くらいやった後にマーケターに転身しました。アド運用、LPOが得意です。ブログ、SEOも大好きです。

robots.txtとは

robots.txtとは、検索エンジンのクローラーに対して、自分のWebサイト上のどのURLにアクセスしても良いか?を伝えるファイルです。

 

世の中には無数のWebページがあります、あなたのサイト上にも、検索結果に表示させる必要がないページがありますよね?(WordPressの管理画面URLなど)

 

検索エンジンのクローラーが、適切にWebサイトをクロールして価値のあるページだけをインデックスできるよう整理することが、robots.txtの役割です。

 

ただし、robots.txtは主に無駄なページをクロールさせないようにするのが目的なので、必ずしも『Googleにウェブページが表示されないようにする仕組み』ではありません。

 

以下、Googleの公式見解です。

 

Google では、robots.txt ファイルでブロックされているコンテンツをクロールしたりインデックスに登録したりすることはありませんが、ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。

 

ですから、絶対にGoogleの検索結果にページを表示させたくない場合は、noindexタグを追加したり、ページをパスワードで保護してください。

 

そうすれば、必ず検索結果に出てこないページが作れます。

 

robots.txtのSEO効果

 

robots.txtが適切に記載されていないと、検索エンジンのクローラーに、WordPressの管理画面URLが登録されてしまったりします。

 

それだけではなく、大量の不要なURLがクロールされることで、価値ある記事のクロールが遅れ、インデックスがされず、検索結果に反映できなかったりもします。

 

サイトの中に、一部でも価値のないページが混ざっていると、サイト全体のSEOにも悪影響を及ぼし、他の記事の検索ランクも落としてしまう可能性すらあります。

 

ですから、robots.txtを適切に記載することで、SEO上非常に効果がある場合があります。ただし、これも当たり前ですが、

 

robots.txtを書けば検索ランクが上がるというわけではありません。あくまでもrobots.txtは、価値あるページをGoogleが見つけやすく整理するための方法と言う感じで覚えておいてください。

 

robots.txtの設定方法

以下の画像をご覧ください。これは『でもやるんだよ』のrobots.txtです。

robots.txtは、ドメインのルートディレクトリに置きます。ちょうど、以下のようなフルパスで誰でもアクセスできるように記載するのがポイントです。

https://www.demoyarundayo.com/robots.txt

 

全てのWebサイトは、どこかしらのサーバーの中にあるわけですから、

 

そのサーバーの中の公開ディレクトリのルート(URL直下)からアクセスできる場所にrobots.txtは設置してください。

 

WordPressなどのCMSを使っている場合は、予め最初からrobots.txtが導入されている場合があります。そういう場合は、何もする必要がなかったり、CMSによっては修正できない場合もあります。

 

ちなみにWordPressをお使いの方は、プラグインを導入することで簡単にrobots.txtを修正することが可能です。

 

このブログはWordPressで運営しています。WordPressは何もしていなくても自動的に「robots.txt」が生成されます。 robots.txtはGoogleなどの検...
WordPressの「robots.txt」を編集できるプラグイン『WP Robots Txt』 | PLUS1WORLD - PLUS1WORLD

 

robots.txtファイルの書き方

robots.txtは以下のように記載します。一個ずつ説明をしていきます。

robots.txtは、User-Agent、Disallow、Allow、Sitemapの4つの要素を記述します。

 

ファイル名は、必ず「robots.txt」としてください。では、それぞれの要素の意味と書き方を説明します。

 

User-Agentは、どのクローラーの動きを制御するかを指定する。例えば、Googlebotを指定すると、Googleのウェブクローリングを制御することになります。ただし、「*」で指定しても基本的に問題はない(すべてのクローラーを意味する)です。

 

Disallowは、クローラーのアクセスを制御するためのファイルを指定するものです。Disallowを指定したファイルやディレクトリはクロールをブロックし、Disallowを指定しないものはクロールを許可します。

 

Disallowを空白にすると、すべてのファイルとディレクトリがクロールの対象となります。私のサイトの場合は、ワードプレスを使っているので、ワードプレスの管理画面はクロールしない設定となっています。

 

Allowは、特定のコンテンツにだけ例外的にクロールを許可するという書き方となります。ただし、Allowはrobots.txtの標準の仕様では定義されていない拡張仕様なので、そこまで気にしなくていいものです。

 

参考: robots.txtでAllowを使うのはどんな時?

 

次にSitemap、これに関しては、この記事では詳しく解説はしませんが、サイト全体の地図みたいなものです。どんなURLがサイトにあるか分かりやすく記載しまとめて、検索エンジンのクローラーが認識しやすくするものです。

 

robots.txtを書いても全てのクローラーに認識されるわけじゃない

 

ちなみにですが、Googleの検索エンジン以外にも、検索エンジンのクローラーはあります。

 

基本的に大きな会社の信頼できるウェブクローラーであれば、robots.txtファイルの記載に従った動きをしてくれます。

 

ですが、クローラーによってはrobots.txtに書かれている内容が理解できない場合があります。

 

ですので、絶対にクロールされたくない場合はパスワードでページを保護したり、noindexを追加するなど対応をしてください。

 

 

モバイルバージョンを終了