AI 爬蟲不是搜尋引擎爬蟲
傳統搜尋引擎爬蟲(如 Googlebot)的目標是建立一個完整的網頁索引。它們會盡可能爬取所有頁面,然後根據排名演算法決定顯示順序。但 AI 爬蟲的運作方式完全不同。
GPTBot、ClaudeBot、PerplexityBot 這些 AI 爬蟲的目標不是「索引所有網頁」,而是尋找高品質、可信賴的內容來訓練模型或即時引用。這意味著它們有一套截然不同的篩選標準。
主要 AI 爬蟲一覽
| 爬蟲名稱 | 所屬公司 | 主要用途 | User-Agent |
| GPTBot | OpenAI | 訓練 GPT 模型、ChatGPT 搜尋 | GPTBot/1.0 |
| ClaudeBot | Anthropic | 訓練 Claude 模型 | ClaudeBot/1.0 |
| PerplexityBot | Perplexity | 即時搜尋引用 | PerplexityBot |
| Google-Extended | Gemini 訓練資料 | Google-Extended | |
| Bytespider | ByteDance | 訓練豆包等模型 | Bytespider |
| DeepSeekBot | DeepSeek | 訓練 DeepSeek 模型 | DeepSeekBot |
決定收錄的 6 大因素
1. robots.txt 的明確許可
這是最基本也最直接的因素。如果你的 robots.txt 封鎖了 AI 爬蟲,它們就不會爬取你的網站。大多數 AI 公司(尤其是 OpenAI 和 Anthropic)會嚴格遵守 robots.txt 規則。
# 允許所有 AI 爬蟲
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
# 只允許特定目錄
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /private/
重點提醒:許多 CMS(如 WordPress)的預設 robots.txt 並未針對 AI 爬蟲做設定。你需要主動加入這些規則。
2. 結構化資料的完整度
AI 爬蟲特別偏好具有豐富結構化資料的網站。JSON-LD 格式的 Schema.org 標記能讓 AI 快速理解你的內容類型、作者資訊和主題範圍。
{
"@context": "https://schema.org",
"@type": "Article",
"headline": "AI 爬蟲收錄機制完整解析",
"author": {
"@type": "Organization",
"name": "AEO Scanner"
},
"datePublished": "2026-04-13",
"dateModified": "2026-04-13",
"description": "深入了解 AI 爬蟲如何判斷是否收錄你的網站"
}
根據我們對超過 5,000 個網站的分析,擁有完整 JSON-LD 標記的網站被 AI 爬蟲爬取的頻率比沒有標記的網站高出 3.2 倍。
3. llms.txt 的存在與內容
llms.txt 是一個相對新的標準,專門為 AI 爬蟲設計。它放在網站根目錄下,告訴 AI 你的網站提供什麼內容、哪些頁面最重要。
# 網站名稱
> 網站簡短描述
重要頁面
聯絡方式
- Email: contact@example.com
把 llms.txt 想像成你遞給 AI 的名片——它讓 AI 在幾秒鐘內就能了解你的網站全貌。
4. 內容的新鮮度與更新頻率
AI 爬蟲傾向於更頻繁地訪問定期更新的網站。這不是因為它們被「設定」成這樣,而是因為經常更新的網站更可能提供準確、最新的資訊。
影響爬取頻率的信號包括:
- XML Sitemap 中的 lastmod 日期 — 定期更新 sitemap 能提示爬蟲回訪
- 頁面的 dateModified 標記 — 結構化資料中的修改日期
- 新內容的發布節奏 — 穩定的發布頻率比偶爾大量發布更有效
- RSS/Atom Feed — 部分 AI 爬蟲會訂閱 feed 來追蹤更新
5. 網站的權威性信號
AI 爬蟲不只看你的網站本身,還會評估你的網站在整個網路生態中的權威性。這些信號包括:
- 外部連結品質 — 其他權威網站是否連結到你
- 品牌提及 — 你的品牌是否在其他地方被討論
- 作者資訊 — 內容是否有可驗證的作者
- HTTPS 和安全性 — 基本的網站安全標準
- 網站年齡 — 長期存在的網站通常被認為更可靠
6. 內容品質與可讀性
最終,AI 爬蟲關心的是內容本身的品質。它們會評估:
- 原創性 — 是否提供獨特的觀點或資料
- 深度 — 是否深入探討主題而非淺嘗輒止
- 結構清晰度 — 是否使用標題、段落、列表等讓內容易於解析
- 專業性 — 內容是否展現專業知識(E-E-A-T)
- 可引用性 — 是否包含可以直接引用的定義、數據或結論
實際案例:從「被忽略」到「被頻繁爬取」
一個中型技術部落格在實施以下改動後,GPTBot 的爬取頻率在 30 天內增加了 4 倍:
1. 在 robots.txt 中明確允許所有 AI 爬蟲
2. 為每篇文章添加完整的 Article JSON-LD 標記
3. 建立 llms.txt 並列出所有重要頁面
4. 為所有 FAQ 內容添加 FAQPage Schema
5. 設定 XML Sitemap 自動更新 lastmod
常見的收錄阻礙
以下是最常見的導致 AI 爬蟲不收錄你的網站的原因:
- robots.txt 預設封鎖 — 很多網站不知不覺地封鎖了 AI 爬蟲
- 缺少結構化資料 — AI 無法理解你的頁面內容類型
- 過多的 JavaScript 渲染 — 部分 AI 爬蟲無法執行 JavaScript
- 低品質或重複內容 — AI 會過濾掉沒有價值的頁面
- 伺服器回應過慢 — 如果你的伺服器回應時間超過 5 秒,爬蟲可能會放棄
開始檢查你的網站
想知道 AI 爬蟲怎麼看你的網站嗎?AEO Scanner 能一鍵檢測你的網站在所有關鍵指標上的表現——從 robots.txt 設定、結構化資料、到 llms.txt 的完整度。掃描只需幾秒鐘,而且完全免費。立即掃描,了解 AI 爬蟲是否已經在收錄你的網站。