AIベンダーのクローラーにsitemapを伝える方法
AIベンダーのクローラー(GPTBot, ClaudeBot, Google-Extendedなど)に対してサイトマップを伝える方法は、主に3つの標準的な手法があります。
従来のSEO(Google/Bing対策)と同様の手法が基本ですが、最近ではAI専用の新しい仕組みも登場しています。
1. robots.txt にサイトマップの場所を明記する
これが最も確実で標準的な方法です。AIクローラーはサイトを巡回する際、まず最初に robots.txt を確認します。ここにサイトマップのURLを記述しておけば、自動的に発見してくれます。
- 場所: https://あなたのドメイン/robots.txt
- 記述例:
- Plaintext
ポイント: User-agent: *(すべてのボット対象)の下に記述すれば、Googlebotだけでなく、OpenAIの GPTBot や Anthropicの ClaudeBot にも伝わります。
2. Webマスターツール(Bing/Google)へ登録する
多くのAI(ChatGPTの検索機能やPerplexityなど)は、BingやGoogleのインデックス情報を参照しています。そのため、主要な検索エンジンの管理画面からサイトマップを送信することは、間接的にAIクローラーへ情報を伝えることと同義です。
- Bing Webmaster Tools: ChatGPT(GPT-4o)などのバックエンドであるBingに情報を送るため、AI対策として非常に重要です。
- Google Search Console: Google Gemini(旧Bard)やGoogle検索のAI機能(SGE/AI Overviews)に影響を与えます。
3. 【最新】llms.txt を設置する
2024年後半から広まりつつある、AI(LLM)専用の新しい標準です。従来のXML形式ではなく、AIが読み取りやすい「Markdown形式」でサイト構造や重要リンクを伝えるファイルです。
- ファイル名: llms.txt
- 設置場所: サイトのルートディレクトリ(https://yourdomain.com/llms.txt)
- 役割: XMLサイトマップは機械的(URLの羅列)ですが、llms.txt は「このサイトには何が書かれているか」を要約してAIに教えることができます。
主要なAIクローラーの一覧
もし特定のAIボットに対してのみ許可・制限をしたい場合は、robots.txt で個別に指定することも可能です。
AIベンダー | クローラー名 (User-agent) |
OpenAI | GPTBot, ChatGPT-User |
Google-Extended (AI学習用) | |
Anthropic | ClaudeBot |
Perplexity | PerplexityBot |
Common Crawl | CCBot (多くのAI学習に使われるデータセット) |
robots.txt は必ず「ドメインのルートディレクトリ(最上層)」に置く必要があります。
サブディレクトリに置いた場合、クローラー(AIボットや検索エンジン)からは完全に無視されることになります。

コメント
コメントはまだありません。