検索エンジンの仕組みを理解する。クローラー、インデックス、アルゴリズムとは？

どうも、スマコマのコマ太郎です。

今回は検索エンジン対策(SEO)初心者のために検索エンジンの仕組みについて解説してみようと思います。（初心者と書いてますが、まだちょっと難しいかも。でも図があるので多少理解できるはず！）

ここでは検索エンジン対策そのものは扱いませんが、SEO周りの記事を読むときに知っておきたい用語、仕組みについて解説しています。

例えば、以下のような用語に関して少しでも疑問があるようなら、きっと役立つ内容のはずです。

クローラー、スパイダー、ボット？
インデックス、インデクサ？
アルゴリズム、検索アルゴリズム？
検索クエリ？

なお、一応 Google をベースに説明しますが、Bing などの他の検索エンジンも同じです。

1 検索エンジンの仕組み
2 まとめ

検索エンジンの仕組み

検索エンジンを使えば、一瞬で世界中のウェブページの中からあなたが必要とするページを探すことができます。

でもなぜこんなに高速に検索結果を弾き返すことができるのでしょうか？

その秘密は検索エンジンシステムの仕組みにあります。中にはホームページを作れば、勝手に人が見に来てくれると思っている人もいますが、実際には検索エンジンシステムが収集したデータだけを検索対象にしているのです。

ではまず、こちらの図をご覧ください。

検索エンジンシステムの全体図

これが検索エンジンシステムの全体像です。検索エンジンシステムは主に以下のような３つのフェーズで構成されています。

フェーズ１（左上）：ページの発見
フェーズ２（右上）：データベースへの登録（インデックス登録）
フェーズ３（下）：検索結果を返す

SEO記事でよく見かけるクローラーとは、ページを発見するプログラムのことで、ウェブ（クモの巣）のリンクをたどって新しいページを探すことからスパイダーと呼ばれることや単にボット（ロボットの略）と呼ばれることもあります。

ページの発見（クローラーとクロール）

このフェーズでは検索エンジンはクローラーを使って、新しいページの発見、更新されたページの発見、データの収集を行います。これをクロールする(crawl)と言います。

クロールと言えば、水泳を思い出しますが、意味は「もぞもぞ動く」です。スパイダーがもぞもぞ動く様から来ているものと思われます。

このクローラーのもっとも基本となる役割はリンクをたどって新しいウェブページを発見すること、更新されたページを発見することです。ただこのプロセスだけではウェブページの発見が遅れるため、クローラーにクロールを通知する方法が用意されています。

それがXMLサイトマップです。XMLサイトマップにはウェブサイトのURLリスト、更新日時、更新頻度、優先順位などのデータが格納でき、それを用意することでクローラーを呼び込む助けになります。下図はXMLサイトマップの例です。

XMLサイトマップの例

クローラーはサイトに訪れた際、まず最初に robots.txtファイルを探し、XMLサイトマップがあればそれを参考にクロールを行ってくれるのです。下図は robots.txtファイルの例です。このように robots.txtファイルに XMLファイルの所在を記述し、クローラーに知らせることができます。

robots.txtファイルの中身

ただ、どうせXMLサイトマップを用意するなら、Google Search Console に XMLサイトマップは登録しておきたいですね。Search Console に XMLサイトマップを登録しておくことでページの発見プロセスをすっ飛ばしてくれます。（実際にクローラーが来るかどうかは、それを処理するアルゴリズムによりますが）

https://smakoma.com/google-xml-sitemaps.html

また Search Console を使えば、ページ単位でクロールをリクエストすることも可能です。

あわせて読みたい記事