AI 爬蟲如何決定要不要收錄你的網站?完整解析 GPTBot、ClaudeBot、PerplexityBot 的收錄機制

· AEO Scanner · AEO AI爬蟲 收錄 技術

AI 爬蟲不是搜尋引擎爬蟲

傳統搜尋引擎爬蟲(如 Googlebot)的目標是建立一個完整的網頁索引。它們會盡可能爬取所有頁面,然後根據排名演算法決定顯示順序。但 AI 爬蟲的運作方式完全不同。

GPTBot、ClaudeBot、PerplexityBot 這些 AI 爬蟲的目標不是「索引所有網頁」,而是尋找高品質、可信賴的內容來訓練模型或即時引用。這意味著它們有一套截然不同的篩選標準。

主要 AI 爬蟲一覽

爬蟲名稱所屬公司主要用途User-Agent
GPTBotOpenAI訓練 GPT 模型、ChatGPT 搜尋GPTBot/1.0
ClaudeBotAnthropic訓練 Claude 模型ClaudeBot/1.0
PerplexityBotPerplexity即時搜尋引用PerplexityBot
Google-ExtendedGoogleGemini 訓練資料Google-Extended
BytespiderByteDance訓練豆包等模型Bytespider
DeepSeekBotDeepSeek訓練 DeepSeek 模型DeepSeekBot

決定收錄的 6 大因素

1. robots.txt 的明確許可

這是最基本也最直接的因素。如果你的 robots.txt 封鎖了 AI 爬蟲,它們就不會爬取你的網站。大多數 AI 公司(尤其是 OpenAI 和 Anthropic)會嚴格遵守 robots.txt 規則。

# 允許所有 AI 爬蟲

User-agent: GPTBot

Allow: /

User-agent: ClaudeBot

Allow: /

User-agent: PerplexityBot

Allow: /

# 只允許特定目錄

User-agent: GPTBot

Allow: /blog/

Allow: /docs/

Disallow: /private/

重點提醒:許多 CMS(如 WordPress)的預設 robots.txt 並未針對 AI 爬蟲做設定。你需要主動加入這些規則。

2. 結構化資料的完整度

AI 爬蟲特別偏好具有豐富結構化資料的網站。JSON-LD 格式的 Schema.org 標記能讓 AI 快速理解你的內容類型、作者資訊和主題範圍。

{

"@context": "https://schema.org",

"@type": "Article",

"headline": "AI 爬蟲收錄機制完整解析",

"author": {

"@type": "Organization",

"name": "AEO Scanner"

},

"datePublished": "2026-04-13",

"dateModified": "2026-04-13",

"description": "深入了解 AI 爬蟲如何判斷是否收錄你的網站"

}

根據我們對超過 5,000 個網站的分析,擁有完整 JSON-LD 標記的網站被 AI 爬蟲爬取的頻率比沒有標記的網站高出 3.2 倍

3. llms.txt 的存在與內容

llms.txt 是一個相對新的標準,專門為 AI 爬蟲設計。它放在網站根目錄下,告訴 AI 你的網站提供什麼內容、哪些頁面最重要。

# 網站名稱

> 網站簡短描述

重要頁面

聯絡方式

  • Email: contact@example.com

把 llms.txt 想像成你遞給 AI 的名片——它讓 AI 在幾秒鐘內就能了解你的網站全貌。

4. 內容的新鮮度與更新頻率

AI 爬蟲傾向於更頻繁地訪問定期更新的網站。這不是因為它們被「設定」成這樣,而是因為經常更新的網站更可能提供準確、最新的資訊。

影響爬取頻率的信號包括:

5. 網站的權威性信號

AI 爬蟲不只看你的網站本身,還會評估你的網站在整個網路生態中的權威性。這些信號包括:

6. 內容品質與可讀性

最終,AI 爬蟲關心的是內容本身的品質。它們會評估:

實際案例:從「被忽略」到「被頻繁爬取」

一個中型技術部落格在實施以下改動後,GPTBot 的爬取頻率在 30 天內增加了 4 倍:

1. 在 robots.txt 中明確允許所有 AI 爬蟲

2. 為每篇文章添加完整的 Article JSON-LD 標記

3. 建立 llms.txt 並列出所有重要頁面

4. 為所有 FAQ 內容添加 FAQPage Schema

5. 設定 XML Sitemap 自動更新 lastmod

常見的收錄阻礙

以下是最常見的導致 AI 爬蟲不收錄你的網站的原因:

開始檢查你的網站

想知道 AI 爬蟲怎麼看你的網站嗎?AEO Scanner 能一鍵檢測你的網站在所有關鍵指標上的表現——從 robots.txt 設定、結構化資料、到 llms.txt 的完整度。掃描只需幾秒鐘,而且完全免費。立即掃描,了解 AI 爬蟲是否已經在收錄你的網站。

立即免費掃描你的網站 AEO 分數 →
分享這篇文章:Twitter/X