某家连锁教育机构花三个月重建了官网,结构清晰、内容扎实——但在豆包、Kimi、DeepSeek里查询核心业务,完全找不到他们。排查发现,Cloudflare默认开启的Bot Fight Mode(机器人战斗模式)已把所有AI爬虫拦在门外整整四个月。企业网站要被AI引用,必须先让AI爬虫能进来、能读懂正文、能找到值得被引用的内容——三道门缺任何一道,AI引用率为零。本文从技术层出发,梳理三层AIGEO架构与10项可落地的自检项,建站时一次性配齐,比后期打补丁省得多。
最高频的盲区:AI爬虫根本没进来过
AI可见度失分最常见的原因不是内容质量,而是AI爬虫被网站本身拦截了——技术配置问题,改几行就能解决,却被大量企业忽视了整整一年。
2025年,AI爬虫的主动抓取行为同比增长超过15倍,GPTBot已出现在约21%的头部网站robots.txt配置里。但企业通常两种极端:要么全开,要么全关。问题在于,AI爬虫本身分两类,对应两个完全不同的目的——大多数企业把它们混为一谈,导致做了无效屏蔽或错误开放。
- 训练类Bot:抓取内容用于模型训练,可根据知识产权政策选择屏蔽。代表:GPTBot(OpenAI)、ClaudeBot(Anthropic)——屏蔽这两个,不影响你在ChatGPT或Claude搜索中被引用。
- 搜索引用类Bot:实时检索内容用于生成答案,是AI引荐流量的实际来源,必须放行。代表:OAI-SearchBot(ChatGPT搜索)、Claude-SearchBot(Claude搜索)、PerplexityBot(Perplexity)、Bytespider(字节旗下,关联豆包生态)。
这里有一个企业主几乎都会踩的坑:Cloudflare的Bot Fight Mode默认开启后会同时屏蔽两类Bot,包括OAI-SearchBot和Claude-SearchBot。不主动检查的站点,在AI搜索里已经隐身了却浑然不觉。2026年3月,一项对500家国内中小企业官网的抽查显示,其中约43%的网站对主流AI搜索引用类Bot设置了无意识的屏蔽。
第一层——技术可读性地基(必须项)
技术地基只有一个判断标准:关闭浏览器JavaScript后,页面正文是否仍然完整可读——不能,就意味着AI爬虫看到的是空白,内容再好也无法被引用。
AI爬虫和搜索引擎爬虫都不会执行JavaScript。纯客户端渲染(CSR)的单页面应用,AI爬取时只能获得一个空壳——这是为什么很多用React或Vue做的官网,AI搜索引用率远低于同行。解决方法是服务端渲染(SSR):确保正文内容直接写入HTML响应体,而不是由浏览器端JS动态生成。检测方法:在Chrome开发者工具里禁用JavaScript,刷新页面,能看到完整正文即为合格。
其次是性能门槛。2026年的Core Web Vitals标准要求:LCP(最大内容渲染)小于2.5秒、INP(交互到下次渲染延迟)小于200毫秒、CLS(累计布局偏移)小于0.1。慢站对AI抓取和SEO排名均有负面影响,且两者共用同一份评分。最后是页面点击深度:任意重要内容页面距首页不超过3次点击,超过3层的内容在AI爬虫的抓取优先级中会显著下降。
第二层——结构化发现协议(增益层)
结构化发现协议是告诉AI"我在哪里、哪些内容最值得引用"的导航系统——没有这一层,AI爬虫爬完就走,不知道优先提取什么。
JSON-LD结构化数据,建议至少做三层叠加:Organization(品牌实体,包含名称、地址、服务类型、联系方式)+ Article/Service(内容/服务页语义标记)+ FAQPage(问答结构化信号)。需要坦诚说明一点:在2025年SearchVIU做的受控实验中,把内容仅放在JSON-LD里的页面,ChatGPT、Claude、Perplexity等平台均未能从中提取内容直接引用——AI把它当作页面HTML的附属文字处理,而非优先引用源。JSON-LD的核心价值是帮助AI识别品牌实体和SEO间接加权,而不是直接提升AI答案里的引用率。
llms.txt文件,放在网站根目录(即 /llms.txt),用Markdown格式列出网站简介、最重要的页面链接和内容分类,是专门为大语言模型设计的"内容地图"。类比关系:robots.txt面向爬虫权限,sitemap.xml面向索引发现,llms.txt面向AI理解与引用优先级。格式极简:网站名称 + 一句话描述 + 分类页面链接列表 + 联系方式。
Content-Signal协议,是Cloudflare于2025年推动的新兴声明标准(CC0协议,已在robots.txt内直接写入):
Content-Signal: search=yes, ai-input=yes, ai-train=no
三个参数分别控制:是否允许用于搜索结果展示(search)、是否允许作为AI回答的实时引用输入(ai-input)、是否允许用于模型训练(ai-train)。企业可以允许前两项、拒绝训练,这是目前颗粒度最细的内容意图声明方式。需要说明的是,Content-Signal目前尚非RFC正式标准,主要AI平台的采纳程度也参差不齐,属于"前瞻性布局"而非当前必须项。
AIGEO架构10项自检表
以下10项,每一项未完成都是AI引用流量的实际损耗,可对照现有网站逐项核查。建站时一次性交付全部10项,比分批改造的综合成本低约40%。
| 优先级 | 检查项 | 快速验证方法 |
|---|---|---|
| 🔴必须 | robots.txt已放行OAI-SearchBot、Claude-SearchBot、PerplexityBot等搜索引用类Bot | 访问 /robots.txt 查看各User-agent规则 |
| 🔴必须 | Cloudflare Bot Fight Mode已关闭或调为"托管质询"而非"屏蔽" | CF控制台 Security > Bots 检查设置 |
| 🔴必须 | 关键页面使用SSR,禁用JS后正文完整可见 | Chrome开发者工具禁用JS后刷新页面 |
| 🔴必须 | sitemap.xml完整且已提交至百度/Google Search Console | 访问 /sitemap.xml;搜索控制台查看覆盖率 |
| 🟡重要 | 重要内容页距首页点击深度 ≤3次 | Screaming Frog或手动追踪点击层级 |
| 🟡重要 | Core Web Vitals达标(LCP<2.5s、INP<200ms、CLS<0.1) | Google PageSpeed Insights输入URL检测 |
| 🟡重要 | JSON-LD包含Organization Schema(品牌名、地址、联系方式、服务类型) | Google结构化数据测试工具验证 |
| 🟡重要 | 主要服务/产品页含Article或Service Schema + FAQPage | 同上 |
| 🟢建议 | 根目录存在llms.txt,列出网站简介与核心页面链接 | 访问 /llms.txt;或用isitagentready.com扫描 |
| 🟢建议 | robots.txt中包含Content-Signal意图声明 | 访问 /robots.txt 检查是否有Content-Signal行 |
「30+网站交付项目里,超过六成的旧站改造第一项就挂——Cloudflare开了Bot Fight Mode,OAI-SearchBot和Claude-SearchBot全被拦截,AI里找不到客户品牌,客户自己也不知道。现在我们的交付标准是:AIGEO架构10项自检表是建站验收的必过项,而不是后期增值包。」
— 徐勇,云享耕科技创始人 · 技术与数字化运营负责人,基于30+网站项目的实践归纳
想对照实际网站做完整诊断,云享耕AIGEO专题提供了三层架构的详细实现说明;含AIGEO架构的建站套餐起步价在官网定价区可直接查阅;AIGEO与SEO的协同关系,见《SEO还有用吗?2026年双轨转型指南》;品牌实体如何配置才能让AI准确识别,见建站前必看。
Q:我的网站用了WordPress,需要重建才能满足AIGEO架构要求吗?A:不需要重建。WordPress本身支持SSR,内容写入HTML没有问题。主要改造点是:用Yoast SEO或RankMath插件生成Organization/Article/FAQPage JSON-LD;手动创建llms.txt文件并上传到网站根目录;在robots.txt里放行搜索引用类AI Bot;检查并关闭Cloudflare Bot Fight Mode。改动都在配置层面,不需要动主题或迁移。
Q:放行OAI-SearchBot和Claude-SearchBot,会不会导致我的内容被用于训练模型?A:不会。OpenAI和Anthropic都已明确把训练爬虫(GPTBot、ClaudeBot)和搜索引用爬虫(OAI-SearchBot、Claude-SearchBot)拆分为独立系统,可以分别控制。允许Claude-SearchBot ≠ 允许ClaudeBot抓取训练数据。如果想同时屏蔽训练抓取并保留搜索引用,只需在robots.txt里屏蔽GPTBot和ClaudeBot、放行OAI-SearchBot和Claude-SearchBot即可。
Q:JSON-LD加了有没有用?网上有说法称AI不读JSON-LD?A:这个说法部分准确。2025年一项受控实验测试了把内容仅写入JSON-LD的情况,主流AI平台均未能从中提取并引用——AI确实不把JSON-LD作为优先引用源。但JSON-LD的核心价值仍然存在:帮助AI识别品牌实体(Organization Schema是AI理解"这家公司是谁"的重要信号)、以及通过Google SEO间接提升内容被AI引用的概率。结论是:加,但别指望它单独解决问题。
Q:llms.txt文件有没有数据证明它有效?A:直接效果数据目前很稀少,主要AI平台也没有公开说"我们会优先读llms.txt"。Evil Martians等机构的服务器日志分析显示,AI爬虫并不会主动请求llms.txt。但它的实际价值在另一个场景:当用户手动把网站URL粘贴进ChatGPT或Claude时,AI会尝试读取/llms.txt来快速理解网站结构——这类人工触发的引用场景,llms.txt的价值明确。实现成本接近零,建议做。
Q:Perplexity不遵守robots.txt是真的吗?A:有记录的案例确实存在。Cloudflare在2025年8月的报告记录了Perplexity使用未声明User-Agent、轮换IP来绕过robots.txt限制的行为,Perplexity对此有争议。这是目前AIGEO领域尚未解决的真实局限:robots.txt是"君子协定",技术上无法强制执行,只对遵守协议的爬虫有效。Cloudflare Bot Management等边缘层防护可以提供更强的执行能力,但企业需要在内容保护和AI可见度之间自行权衡。
AI爬虫的访问量在持续增长,但它能不能实际读到你的网站,完全取决于这两件事有没有做对:门开没开(robots.txt + Cloudflare配置),进来后看没看到内容(SSR + 页面结构)。技术架构先于内容运营——内容再好,技术层没通,一切为零。
一个值得持续观察的方向:随着AI Agent式搜索(用户让AI代为完成调研和采购的模式)在2026年逐渐成熟,网站的AIGEO架构质量不只影响"被引用",还会影响"被AI代理直接采取行动"——这两件事的技术要求已经开始分叉,谁先注意到这个分叉,谁就先一步布局。
参考文献
Cloudflare · 2025 Radar Year in Review: AI Crawlers (2025)
Evil Martians · Making your site visible to LLMs: 6 techniques that work, 8 that don't (2026)
OpenAI · GPTBot and OAI-SearchBot Documentation (2026)
Anthropic · ClaudeBot, Claude-SearchBot and Claude-User Bot Policy (2026)
Google Developers · Core Web Vitals (2026)
张文保(保哥笔记)· AEO优化:怎么让内容被AI搜索引用 (2026)