AI 爬蟲如何決定要不要收錄你的網站？完整解析 GPTBot、ClaudeBot、PerplexityBot 的收錄機制

AI 爬蟲不是搜尋引擎爬蟲

傳統搜尋引擎爬蟲（如 Googlebot）的目標是建立一個完整的網頁索引。它們會盡可能爬取所有頁面，然後根據排名演算法決定顯示順序。但 AI 爬蟲的運作方式完全不同。

GPTBot、ClaudeBot、PerplexityBot 這些 AI 爬蟲的目標不是「索引所有網頁」，而是尋找高品質、可信賴的內容來訓練模型或即時引用。這意味著它們有一套截然不同的篩選標準。

主要 AI 爬蟲一覽

爬蟲名稱

所屬公司

主要用途

User-Agent

GPTBot	OpenAI	訓練 GPT 模型、ChatGPT 搜尋	GPTBot/1.0
ClaudeBot	Anthropic	訓練 Claude 模型	ClaudeBot/1.0
PerplexityBot	Perplexity	即時搜尋引用	PerplexityBot
Google-Extended	Google	Gemini 訓練資料	Google-Extended
Bytespider	ByteDance	訓練豆包等模型	Bytespider
DeepSeekBot	DeepSeek	訓練 DeepSeek 模型	DeepSeekBot

決定收錄的 6 大因素

1. robots.txt 的明確許可

這是最基本也最直接的因素。如果你的 robots.txt 封鎖了 AI 爬蟲，它們就不會爬取你的網站。大多數 AI 公司（尤其是 OpenAI 和 Anthropic）會嚴格遵守 robots.txt 規則。

# 允許所有 AI 爬蟲
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

# 只允許特定目錄
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /private/

重點提醒：許多 CMS（如 WordPress）的預設 robots.txt 並未針對 AI 爬蟲做設定。你需要主動加入這些規則。

2. 結構化資料的完整度

AI 爬蟲特別偏好具有豐富結構化資料的網站。JSON-LD 格式的 Schema.org 標記能讓 AI 快速理解你的內容類型、作者資訊和主題範圍。

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "AI 爬蟲收錄機制完整解析",
  "author": {
    "@type": "Organization",
    "name": "AEO Scanner"
  },
  "datePublished": "2026-04-13",
  "dateModified": "2026-04-13",
  "description": "深入了解 AI 爬蟲如何判斷是否收錄你的網站"
}

根據我們對超過 5,000 個網站的分析，擁有完整 JSON-LD 標記的網站被 AI 爬蟲爬取的頻率比沒有標記的網站高出 3.2 倍。

3. llms.txt 的存在與內容

llms.txt 是一個相對新的標準，專門為 AI 爬蟲設計。它放在網站根目錄下，告訴 AI 你的網站提供什麼內容、哪些頁面最重要。

# 網站名稱
> 網站簡短描述

重要頁面
首頁: 網站主頁
部落格: 技術文章
API 文件: 開發者文件

聯絡方式
Email: contact@example.com

把 llms.txt 想像成你遞給 AI 的名片——它讓 AI 在幾秒鐘內就能了解你的網站全貌。

4. 內容的新鮮度與更新頻率

AI 爬蟲傾向於更頻繁地訪問定期更新的網站。這不是因為它們被「設定」成這樣，而是因為經常更新的網站更可能提供準確、最新的資訊。

影響爬取頻率的信號包括：

XML Sitemap 中的 lastmod 日期 — 定期更新 sitemap 能提示爬蟲回訪
頁面的 dateModified 標記 — 結構化資料中的修改日期
新內容的發布節奏 — 穩定的發布頻率比偶爾大量發布更有效
RSS/Atom Feed — 部分 AI 爬蟲會訂閱 feed 來追蹤更新

5. 網站的權威性信號

AI 爬蟲不只看你的網站本身，還會評估你的網站在整個網路生態中的權威性。這些信號包括：

外部連結品質 — 其他權威網站是否連結到你
品牌提及 — 你的品牌是否在其他地方被討論
作者資訊 — 內容是否有可驗證的作者
HTTPS 和安全性 — 基本的網站安全標準
網站年齡 — 長期存在的網站通常被認為更可靠

6. 內容品質與可讀性

最終，AI 爬蟲關心的是內容本身的品質。它們會評估：

原創性 — 是否提供獨特的觀點或資料
深度 — 是否深入探討主題而非淺嘗輒止
結構清晰度 — 是否使用標題、段落、列表等讓內容易於解析
專業性 — 內容是否展現專業知識（E-E-A-T）
可引用性 — 是否包含可以直接引用的定義、數據或結論

實際案例：從「被忽略」到「被頻繁爬取」

一個中型技術部落格在實施以下改動後，GPTBot 的爬取頻率在 30 天內增加了 4 倍：

1. 在 robots.txt 中明確允許所有 AI 爬蟲

2. 為每篇文章添加完整的 Article JSON-LD 標記

3. 建立 llms.txt 並列出所有重要頁面

4. 為所有 FAQ 內容添加 FAQPage Schema

5. 設定 XML Sitemap 自動更新 lastmod

常見的收錄阻礙

以下是最常見的導致 AI 爬蟲不收錄你的網站的原因：

robots.txt 預設封鎖 — 很多網站不知不覺地封鎖了 AI 爬蟲
缺少結構化資料 — AI 無法理解你的頁面內容類型
過多的 JavaScript 渲染 — 部分 AI 爬蟲無法執行 JavaScript
低品質或重複內容 — AI 會過濾掉沒有價值的頁面
伺服器回應過慢 — 如果你的伺服器回應時間超過 5 秒，爬蟲可能會放棄

開始檢查你的網站

想知道 AI 爬蟲怎麼看你的網站嗎？AEO Scanner 能一鍵檢測你的網站在所有關鍵指標上的表現——從 robots.txt 設定、結構化資料、到 llms.txt 的完整度。掃描只需幾秒鐘，而且完全免費。立即掃描，了解 AI 爬蟲是否已經在收錄你的網站。