AIベンダーのクローラーにsitemapを伝える方法

U3
2026/3/5
2026/3/5

AIベンダーのクローラー(GPTBot, ClaudeBot, Google-Extendedなど)に対してサイトマップを伝える方法は、主に3つの標準的な手法があります。

従来のSEO(Google/Bing対策)と同様の手法が基本ですが、最近ではAI専用の新しい仕組みも登場しています。

1. robots.txt にサイトマップの場所を明記する

これが最も確実で標準的な方法です。AIクローラーはサイトを巡回する際、まず最初に robots.txt を確認します。ここにサイトマップのURLを記述しておけば、自動的に発見してくれます。

  1. 場所: https://あなたのドメイン/robots.txt
  2. 記述例:
  3. Plaintext
User-agent: *
Allow: /

Sitemap: https://yourdomain.com/sitemap.xml
ポイント: User-agent: *(すべてのボット対象)の下に記述すれば、Googlebotだけでなく、OpenAIの GPTBot や Anthropicの ClaudeBot にも伝わります。

2. Webマスターツール(Bing/Google)へ登録する

多くのAI(ChatGPTの検索機能やPerplexityなど)は、BingやGoogleのインデックス情報を参照しています。そのため、主要な検索エンジンの管理画面からサイトマップを送信することは、間接的にAIクローラーへ情報を伝えることと同義です。

  1. Bing Webmaster Tools: ChatGPT(GPT-4o)などのバックエンドであるBingに情報を送るため、AI対策として非常に重要です。
  2. Google Search Console: Google Gemini(旧Bard)やGoogle検索のAI機能(SGE/AI Overviews)に影響を与えます。

3. 【最新】llms.txt を設置する

2024年後半から広まりつつある、AI(LLM)専用の新しい標準です。従来のXML形式ではなく、AIが読み取りやすい「Markdown形式」でサイト構造や重要リンクを伝えるファイルです。

  1. ファイル名: llms.txt
  2. 設置場所: サイトのルートディレクトリ(https://yourdomain.com/llms.txt
  3. 役割: XMLサイトマップは機械的(URLの羅列)ですが、llms.txt は「このサイトには何が書かれているか」を要約してAIに教えることができます。

主要なAIクローラーの一覧

もし特定のAIボットに対してのみ許可・制限をしたい場合は、robots.txt で個別に指定することも可能です。

AIベンダー

クローラー名 (User-agent)

OpenAI

GPTBot, ChatGPT-User

Google

Google-Extended (AI学習用)

Anthropic

ClaudeBot

Perplexity

PerplexityBot

Common Crawl

CCBot (多くのAI学習に使われるデータセット)

robots.txt は必ず「ドメインのルートディレクトリ(最上層)」に置く必要があります。

サブディレクトリに置いた場合、クローラー(AIボットや検索エンジン)からは完全に無視されることになります。



コメント

コメントはまだありません。