SEO 2021.01.22

クローラーを徹底解説!重要なポイントとサイト向上の秘訣とは?

ロボットと人間の握手

今回はSEOを学ぶ上で欠かせない「クローラー」について解説します。

検索エンジンの検索結果に自社サイトを上位表示させるためには、クローラーにサイトを認識してもらうことが必須です。WEBサイト制作においてクローラーに関する知識を持つことは、SEOを実施する上で非常に重要となり、仕組みをしっかりと理解した上で対策することが求められます。

本記事では、クローラーの基本からクローラーを意識したWEBサイト構成時のポイント、クローラー巡回のチェック&申請方法、クローラビリティ向上の秘訣などをまとめていますので是非ご活用ください!

クローラーとは

クローラーとはインターネット(WEB)上を周回するプログラムです。他にも、「ボット(Bot)」「スパイダー」「ロボット」などと呼ばれ、いずれかは耳にしたことがあるのではないでしょうか。

WEB上に存在するサイトや文章、画像などありとあらゆる情報を自動取得し、主に検索エンジンのインデックスを作成します。インデックスとはクローラーがページを認識して情報をデータベース化することをいい、インデックスされなければ検索結果に表示されることはありません。    

検索エンジン運営側の企業はクローラーも同時に管理しているため、クローラーは検索エンジンごとに種類があります。以下は代表例です。

  • Googlebot:「Google」のクローラー
  • Bingbot(マイクロソフト・Bing):マイクロソフト「Bing」のクローラー
  • Baidspider:中国の検索エンジン「Baidu」のクローラー

これらのクローラーが巡回してコンテンツの情報を収集・登録することを「クローリング」といいます。

クローラーの仕組み

クローラーはどのような仕組みで動くプログラムなのか、詳しく見ていきましょう。

一般にクローラーは、すでにデータベース化され検索エンジンに登録済みの既存WEBサイトから入っていきます。解析する中で内部にリンクを発見する度、リンク先のWEBサイトにアクセスして解析・登録していくという工程を繰り返し行っているのです。

クロールの対象

クローラーが巡回するのは、    

  • HTMLファイル
  • CSSファイル
  • JavaScriptファイル
  • 動画
  • 画像
  • オフィス文書(Word/Excel/PowerPoint)
  • Flash
  • PDF

など、さまざまなファイルが対象となります。

クローラーとサーバー間の通信手段は「HTTP/HTTPSプロトコル(通信規約)」です。
表示を省略される場合がありますが、サイト住所を表すURLは共通の通信規約 「http(暗号化されていない通信)」や「https(暗号化された通信)」で始まるものが多く存在しますよね。これは、私たちの便利な生活を支えているITのお話で、スマホやパソコンなどユーザーのインターネット環境が違っていても、同じようにデータをやり取りできるよう定められたものなのです。

クローラーは、「HTTP/HTTPSプロトコル」の形で取得できる情報をすべてクロールの対象としています 。

代表的なクローラー

クローラーは大きく2種類に分類することができます。

①GoogleのGooglebot

②その他のクローラー
 ・ Bingbot:マイクロソフトが運営する「Bing」のクローラー
 ・Baiduspider:中国最大の検索エンジン「Baidu」のクローラー

Googleとその他で大別される理由は、Googleが世界40カ国においてトップシェアの検索エンジンだからです。そのシェア率は日本だけで見てもPC79%、モバイル75%以上を誇っており、さらに日本のYahoo!でもGoogleの検索エンジンを採用しています。(2020年10月時点)

以上により、日本国内でSEOを攻略していくためにはGooglebotを意識した対策ができれば良い、と言っても過言ではありません。    

引用:PCモバイル

WEBサイトは、クローラーに対応した構成にしよう

冒頭でもお伝えしましたが、SEOを実施していく上でクローリングされることは必須の条件です。せっかく作ったサイトがインデックスされない(データベースに登録されず、検索結果に表示されない)なんてことは起こってほしくないですよね。

だからこそ、「クローラーから読み取ってもらいやすいWEBサイトづくり」というものが大切になってきます。

クローラーの巡回しやすさを表す「クローラビリティ」を理解することは一見エンジニア向けの内容かもしれませんが、ブログや自社コンテンツを更新している人にも関わることなので、意識的にチェックしましょう。

WEBサイト制作時のクローラーの重要性

検索エンジン運営側の企業にとって検索エンジンはサービスの一つですから、利用されなければもちろん赤字になってしまいます。ユーザーが検索した際に価値ある情報を正しい順番で表示し、自社の検索エンジンを使用してもらうことが重要になるため、クローラーの存在は必須なのです。    

そして、検索エンジンを利用するWEBサイト制作者・運営者にとっても自社サイトを検索結果に上位表示し、サイトにアクセスしてもらう等の目的があるため、クローラーにクローリングしてもらうことが重要になります。

クローラーがなければWEBサイトやブログを作っても検索結果に表示されず、検索流入によるアクセスが得られません。  そのため、WEBサイトを制作する上でクローラーの巡回を促すことはとても重要になります。

クローラビリティ向上の秘訣

それでは、WEBサイトを運営・管理していくなかでクローラビリティを向上させるための秘訣を以下で詳しくご紹介します。    

パンくずリスト(breadcrumb list)を設定する

パンくずリストの例

「パンくずリスト」とは、現在閲覧しているWEBページの位置をわかりやすくしたもので、WEBサイトの左上などにあるトップページからの階層順を表したリンクを指します。

各ページにパンくずリストを設置するとリンク数が増えて回遊率が向上するうえ、ページ間の親子関係も明確になることでより正確な情報をクローラーに伝えることができます。

重要なコンテンツを浅い階層に設置する

上記の内容を踏まえると、クローラーが重要なページを正確に認識することができない可能性が出てくるということも理解していただけるかと思います。WEBサイトにとって重要なページほどなるべくトップページから浅い階層に設置し、クローラーに積極的に巡回してもらえるようにしましょう。

内部リンクを設置する

繰り返しになりますが、クローラーはサイト内部のリンクを把握しアクセスすることで新たなページを発見するため、内部リンクがあるとそのサイトからクローラーが巡回しやすくなります。コンテンツ制作時などに関連性の高いテーマが出てきた場合は、積極的にリンクを貼るようにしましょう。

注意したいのは、闇雲にリンクを貼ってしまわないということです。Googleは関連性の高いリンクほど評価します。それは逆も然りで、関連性が低いと判断されてしまえば低評価を受け検索順位を獲得することが難しくなってしまうということも頭に入れておきましょう。

外部リンクを貼ってもらう

これは、自社とは異なるページに自社サイトのリンクを貼ってもらうという方法です。例えば、「ここのスイーツが美味しかった」と誰かが自社サイトのURLを貼り付けたとしたならば、これが外部リンクに当てはまります。

より関連性と評価の高いサイトから外部リンクを貼ってもらうことは評価に直結しますが、質の低いサイトから外部リンクを貼られても、評価が上がらないどころかペナルティを受けるリスクもあるため注意が必要です。

重複コンテンツを無くす(URLの正規化)

重複コンテンツとは、コンテンツの内容が他のページ(同ドメインまたは別ドメイン)の内容と重複していることを指します。

例えば、以下の場合が当てはまります。

  • 他のページコンテンツまたは別サイトのコンテンツと全く同じである(ミラーページ)
  • 他のページコンテンツまたは別サイトのコンテンツと極めて似ている など

重複コンテンツやページによっては致し方ない場合が存在するため、全てが「悪」というわけではありません。ただ、異なるURLでまったく同じコンテンツがあるというのは、クローラーからしてもわかりにくいものです。本来評価されるべきページが評価され辛くなったり、検索結果の適した順位に反映されなかったりというSEOへの悪影響も引き起こしかねません。

また、幅広い内容のコンテンツを検索結果に表示させようとする動きがあるため、ペナルティが課されなかった場合でも似た情報は表示され辛くなる可能性があります。リスクを減らす意味でも重複コンテンツのチェックを怠らず、できるだけ無くすように心がけましょう。

以下では、ツールの紹介とURL正規化の方法を解説しています。

重複コンテンツを確認、診断できるツール

Googleサーチコンソールのカバレッジで除外をクリック
googleサーチコンソールは一部重複の場合は表示されず、全く同じページが複数ある完全コピーコンテンツの場合のみ表示されるので注意が必要。「URL検査」を実施できる。    

Google検索
Google検索結果URLの末尾に

&filter=0

と入力すると意図的に検索結果に表示されなかったページを確認できる

sujiko.jp
sujiko.jpは、重複の可能性があるコンテンツがわかっているときにその両者を比較できる

Copy Content Detector
Copy Content Detectorは、アップ前のコンテンツをチェックしたいときに便利

URLの正規化の方法

①極力消去して1つに絞る

  • URLや同じページに「www.」が含まれているものと含まれていないものが存在し、複数のURLからアクセスできるケース
  • 「https;//sample.com/」と「https;//sample.com/index.html」どちらのURLを入力してもトップにアクセスできるケース

上記に加え、「自動で生成されるページ」も該当してしまうので、定期的な確認を行うことでURLを1つに絞るようにしましょう。

②Canonicalタグ
デバイスごとにURLが異なるときなど、どちらのURLも必要で1つをオリジナルとして正規化したいときに使う方法です。
正規化したいページ以外のheadタグ内に

link rel=”canonical” href=”https://example.com/category/page” /

と記載することでどのページが正規かを指定しましょう。

サイト作成時の注意点

上記では、クローラビリティを向上させる秘訣についてお伝えしましたが、クローラーが巡回しやすいサイトを作成するためには以下の注意点も非常に重要となってきますので、合わせて確認しておきましょう。

HTTPステータスコードを適切に設定する

ステータスコードの設定を間違えてしまうと

  • セッション数の減少
  • 検索結果の順位下落

といった悪影響を引き起こし、Googleサーチコンソールでエラーが発生する場合があります。

ステータスコードの設定は、サイト運営の要とも言える作業ですので、問題がないか不安に思われる場合は専門とする会社に相談してみるのがいいかもしれません。

ステータスコードの種類とSEOにおける注意点

リンクはなるべくテキストリンクにする

あなたは「なぜテキストリンクにすることが重要なのか」という理由を正しく説明することができますか?

それは、クローラーはアンカーテキストからページ情報を読み取るからです。短く簡潔なテキストにして効果的にリンクテキストを記述することをGoogle自身が推奨しています。

テキストリンク(アンカーテキスト)とは、URLのリンクが埋め込まれた文字列を指し、HTMLの仕組みで構成されています。本記事でも参考サイトを挙げる時にいくつか登場していますよね。

例えば、

↓SEOとは?初心者でもわかりやすく基本を解説!SEO入門編↓
https://hitonote.jp/column/seo/259/

というように、無駄な要素を盛り込んで長ったらしく記載するよりも、

 【入門編】SEOの基本

というシンプルな表記でリンクへ飛べる方が分かりやすく、ゴチャゴチャもしませんよね。こういった小さな想いやりがユーザーの読みやすさや離脱率低下に繋がり、ユーザビリティ向上の1歩にもなるのです。

robots.txtのDisallow記述に気をつける    

robots.txtは、サイトに対するクローラの巡回を制御するためのファイルで、特定URLへの巡回を阻止するなど便利な機能があります。

巡回を拒否するページのURLパスやURLパスの先頭部分を指定できる「Disallow」で記述した場合は、サイト全体のクロールをブロックすることになります。そのため、誤って記述してしまうと検索結果に表示されなくなってしまいますので、注意しましょう。

また、Disallowではクローラーの巡回をブロックすることができていても、インデックス登録される可能性があります。Googleのサポートにも“ブロック対象の URL がウェブ上の他の場所からリンクされている場合、その URL を検出してインデックスに登録する可能性はあります。”という記載があります。

Disallowではインデックス登録を完全に禁止できるわけではないということも覚えておきましょう。すでにDisallowで記述してしまっているサイトのインデックスを制御するためには、「noindexメタタグ」でインデックス自体を禁止する必要があります。

サイト構造を簡潔にする

サイト構造を簡潔にすることも重要です。一般的にトップページから2クリックですべてのページに辿り着ける構造が理想とされています。それは、クローラーは必ずしも全てのページを巡回するわけではないというのが大きな理由です。
何度もリンクを踏まなければたどり着けないページはクローラーにとっても探しにくいと同時に、後になるにつれてクローリングされる確率が薄くなります。

複雑にカテゴライズされすぎていないかサイト構造を見直し、クローラーが効率的に巡回できるようわかりやすい構造を意識して制作しましょう。

クローリングしてほしくない場合

クローラーにWEBサイトを巡回されたページは良くも悪くも検索エンジンに登録され、コンテンツの質に応じた評価を受けます。WEBサイトを運営していくと、どうしても事業サービス的には不可欠だが、SEOにおいては不利なページというものができてきます。

それに代表されるページが以下のもので、必要に応じてクローラーが巡回されないように設定しましょう。

  • お問い合わせ&サンクス:コンテンツ内容が少ない
  • 会員限定ページ:ログインしないと閲覧できない場合が多く、クローラーが読み込めない
  • 画像だらけのLP:コンテンツが少ない or キャンペーン用にコピー複製している場合がある
  • テスト開発中のページ:テスト段階なのでインデックスされて見られては困る    

これらのページはどうしてもコンテンツ内容が少なくなり、また品質も低くなりがちで低評価を受けてしまうかもしれません。クローラー巡回の散開を防ぎ重要なページを優先的にクローリングしてもらうためにも、クローラー巡回をブロックする必要があります。

クローリングを防ぐ(ブロックする)方法

「robots.txt」を使用する

クローラーを効率よく巡回させるために一部のWEBページをブロックしたいとき

【robots.txt】基礎から安心の徹底解説

HTMLファイルに「noindex」と記述

インデックス(検索結果に表示)させたくないとき          

「Basic認証」や「IPアドレス」でアクセスを制限

一般ユーザーに見られたくないとき    

WordPressで構築されたサイトの場合、使用のテーマにもよりますがページ投稿画面の下部などに「この固定ページ/投稿に noindexを使用する」や「インデックスしない(noindex)」というチェック項目があります。
これらにチェックすると簡単に該当ページのクローリングを防ぐことができますが、「noindex」のみではインデックスされないというだけでクローラーが巡回することに変わりはありません。そのため、完全にクローリングを防ぐためには「noindex」に加えて「robots.txt」で巡回を拒否するというのが理想的です。    

また、気をつけたい点として「robots.txt」と「noindex」の2つの方法は、一般ユーザーのアクセスが可能になってきます。一般のユーザーに見られたくないときは、「Basic認証」や「IPアドレス」でアクセスの制限を設定するよう注意しましょう。

クローラー巡回のチェック方法

クローラーが自社サイトに巡回しているか調べられたら便利ですよね。サイト管理者がクローラーの巡回状況を確認するにするには「site: 検索」と「Googleサーチコンソール」を使用した方法があります。

Googleで「site:ドメイン名」検索する

例えば、新規ページ「example.com」を公開してクローラーが巡回したか知りたい場合、「site:example.com」と検索して検索結果画面に表示されればクローラーにインデックスされているということになります。

Googleサーチコンソールを利用する

「Googleサーチコンソール」とはGoogleが提供する無料のツールです。サーチコンソールにログインして、URL検査という項目から調べたいサイトのURLを貼り付けると、インデックス登録(クローラー巡回)を調べられます。

クローラー巡回の申請方法

新しいWEBサイトやページを更新したら、クローラーに巡回の申請を行いましょう。主な申請方法は「Googleにサイトマップを提供する」、「URL検査ツール(元Fetch as Google)を使用する」の2種類です。どちらもGoogleサーチコンソールを使用します。

Googleにサイトマップを提供する

  1. Googleサーチコンソールにログイン
  2. メニューのインデックスからサイトマップをクリック
  3. 「新しいサイトマップの追加」の入力欄に、別途作成したサイトマップファイル(sitemap.xml)のURLを記述
  4. 送信ボタンを押して完了

URL検査ツールを使用する   

  1. Googleサーチコンソールにログイン
  2. メニューのURL検査をクリック
  3. クローラーに巡回してほしいページのURLを入力し、Enter
  4. 検査結果画面に「インデックス登録をリクエスト」が表示されるので、クリックして完了

まとめ

クローラーとはインターネット(WEB)上に存在するサイトや文章、画像などの情報を周期的に取得し、自動で検索結果に影響するデータベースを作成するプログラムです。

クローラーはリンクをたどり、WEBサイトを巡回するため、自社サイトのリンク管理が大切になります。新しくサイトを作成したり、ページを更新したりする場合はクローラーに巡回申請をして検索エンジンへの登録をリクエストしましょう。 クローラーの仕組みをしっかりと理解して、WEBサイト運営に役立ててください。

ヒトノテロゴ

執筆者:ヒトノート編集部

株式会社ヒトノテのオウンドメディア、WEBマーケティングの学習帳「ヒトノート -Hito note-」の編集部。

ヒトノテ坪昌史

監修者:坪昌史

株式会社ヒトノテの代表取締役CEO。 エンジニアとしてキャリアスタートし、サイバーエージェントのSEO分析研究機関を経て、リクルートの横断マーケティング組織のマネージャー&全社SEO技術責任者を務める。その後、独立しSEOを中心としたクライアントの課題解決を行う。2017年、株式会社ヒトノテを創業し、様々な企業のウェブマーケティングの支援を行う。

ご質問やご相談など
お気軽にお問い合わせください

お問い合わせ お電話でのご相談は平日10:00-18:00 03-6265-6636