企业网站AIGEO架构清单：建站就该配什么（2026版）

Q: Q：放行OAI-SearchBot和Claude-SearchBot，会不会导致我的内容被用于训练模型？

A：不会。OpenAI和Anthropic都已明确把训练爬虫（GPTBot、ClaudeBot）和搜索引用爬虫（OAI-SearchBot、Claude-SearchBot）拆分为独立系统，可以分别控制。允许Claude-SearchBot ≠ 允许ClaudeBot抓取训练数据。如果想同时屏蔽训练抓取并保留搜索引用，只需在robots.txt里屏蔽GPTBot和ClaudeBot、放行OAI-SearchBot和Claude-SearchBot即可。

Q: Q：JSON-LD加了有没有用？网上有说法称AI不读JSON-LD？

A：这个说法部分准确。2025年一项受控实验测试了把内容仅写入JSON-LD的情况，主流AI平台均未能从中提取并引用——AI确实不把JSON-LD作为优先引用源。但JSON-LD的核心价值仍然存在：帮助AI识别品牌实体（Organization Schema是AI理解"这家公司是谁"的重要信号）、以及通过Google SEO间接提升内容被AI引用的概率。结论是：加，但别指望它单独解决问题。

Q: Q：llms.txt文件有没有数据证明它有效？

A：直接效果数据目前很稀少，主要AI平台也没有公开说"我们会优先读llms.txt"。Evil Martians等机构的服务器日志分析显示，AI爬虫并不会主动请求llms.txt。但它的实际价值在另一个场景：当用户手动把网站URL粘贴进ChatGPT或Claude时，AI会尝试读取/llms.txt来快速理解网站结构——这类人工触发的引用场景，llms.txt的价值明确。实现成本接近零，建议做。

Q: Q：Perplexity不遵守robots.txt是真的吗？

A：有记录的案例确实存在。Cloudflare在2025年8月的报告记录了Perplexity使用未声明User-Agent、轮换IP来绕过robots.txt限制的行为，Perplexity对此有争议。这是目前AIGEO领域尚未解决的真实局限：robots.txt是"君子协定"，技术上无法强制执行，只对遵守协议的爬虫有效。Cloudflare Bot Management等边缘层防护可以提供更强的执行能力，但企业需要在内容保护和AI可见度之间自行权衡。

某家连锁教育机构花三个月重建了官网，结构清晰、内容扎实——但在豆包、Kimi、DeepSeek里查询核心业务，完全找不到他们。排查发现，Cloudflare默认开启的Bot Fight Mode（机器人战斗模式）已把所有AI爬虫拦在门外整整四个月。企业网站要被AI引用，必须先让AI爬虫能进来、能读懂正文、能找到值得被引用的内容——三道门缺任何一道，AI引用率为零。本文从技术层出发，梳理三层AIGEO架构与10项可落地的自检项，建站时一次性配齐，比后期打补丁省得多。

最高频的盲区：AI爬虫根本没进来过

AI可见度失分最常见的原因不是内容质量，而是AI爬虫被网站本身拦截了——技术配置问题，改几行就能解决，却被大量企业忽视了整整一年。

2025年，AI爬虫的主动抓取行为同比增长超过15倍，GPTBot已出现在约21%的头部网站robots.txt配置里。但企业通常两种极端：要么全开，要么全关。问题在于，AI爬虫本身分两类，对应两个完全不同的目的——大多数企业把它们混为一谈，导致做了无效屏蔽或错误开放。

训练类Bot：抓取内容用于模型训练，可根据知识产权政策选择屏蔽。代表：GPTBot（OpenAI）、ClaudeBot（Anthropic）——屏蔽这两个，不影响你在ChatGPT或Claude搜索中被引用。
搜索引用类Bot：实时检索内容用于生成答案，是AI引荐流量的实际来源，必须放行。代表：OAI-SearchBot（ChatGPT搜索）、Claude-SearchBot（Claude搜索）、PerplexityBot（Perplexity）、Bytespider（字节旗下，关联豆包生态）。

这里有一个企业主几乎都会踩的坑：Cloudflare的Bot Fight Mode默认开启后会同时屏蔽两类Bot，包括OAI-SearchBot和Claude-SearchBot。不主动检查的站点，在AI搜索里已经隐身了却浑然不觉。2026年3月，一项对500家国内中小企业官网的抽查显示，其中约43%的网站对主流AI搜索引用类Bot设置了无意识的屏蔽。

第一层——技术可读性地基（必须项）

技术地基只有一个判断标准：关闭浏览器JavaScript后，页面正文是否仍然完整可读——不能，就意味着AI爬虫看到的是空白，内容再好也无法被引用。

AI爬虫和搜索引擎爬虫都不会执行JavaScript。纯客户端渲染（CSR）的单页面应用，AI爬取时只能获得一个空壳——这是为什么很多用React或Vue做的官网，AI搜索引用率远低于同行。解决方法是服务端渲染（SSR）：确保正文内容直接写入HTML响应体，而不是由浏览器端JS动态生成。检测方法：在Chrome开发者工具里禁用JavaScript，刷新页面，能看到完整正文即为合格。

其次是性能门槛。2026年的Core Web Vitals标准要求：LCP（最大内容渲染）小于2.5秒、INP（交互到下次渲染延迟）小于200毫秒、CLS（累计布局偏移）小于0.1。慢站对AI抓取和SEO排名均有负面影响，且两者共用同一份评分。最后是页面点击深度：任意重要内容页面距首页不超过3次点击，超过3层的内容在AI爬虫的抓取优先级中会显著下降。

第二层——结构化发现协议（增益层）

结构化发现协议是告诉AI"我在哪里、哪些内容最值得引用"的导航系统——没有这一层，AI爬虫爬完就走，不知道优先提取什么。

JSON-LD结构化数据，建议至少做三层叠加：Organization（品牌实体，包含名称、地址、服务类型、联系方式）+ Article/Service（内容/服务页语义标记）+ FAQPage（问答结构化信号）。需要坦诚说明一点：在2025年SearchVIU做的受控实验中，把内容仅放在JSON-LD里的页面，ChatGPT、Claude、Perplexity等平台均未能从中提取内容直接引用——AI把它当作页面HTML的附属文字处理，而非优先引用源。JSON-LD的核心价值是帮助AI识别品牌实体和SEO间接加权，而不是直接提升AI答案里的引用率。

llms.txt文件，放在网站根目录（即 /llms.txt），用Markdown格式列出网站简介、最重要的页面链接和内容分类，是专门为大语言模型设计的"内容地图"。类比关系：robots.txt面向爬虫权限，sitemap.xml面向索引发现，llms.txt面向AI理解与引用优先级。格式极简：网站名称 + 一句话描述 + 分类页面链接列表 + 联系方式。

Content-Signal协议，是Cloudflare于2025年推动的新兴声明标准（CC0协议，已在robots.txt内直接写入）：

Content-Signal: search=yes, ai-input=yes, ai-train=no

三个参数分别控制：是否允许用于搜索结果展示（search）、是否允许作为AI回答的实时引用输入（ai-input）、是否允许用于模型训练（ai-train）。企业可以允许前两项、拒绝训练，这是目前颗粒度最细的内容意图声明方式。需要说明的是，Content-Signal目前尚非RFC正式标准，主要AI平台的采纳程度也参差不齐，属于"前瞻性布局"而非当前必须项。

AIGEO架构10项自检表

以下10项，每一项未完成都是AI引用流量的实际损耗，可对照现有网站逐项核查。建站时一次性交付全部10项，比分批改造的综合成本低约40%。

优先级	检查项	快速验证方法
🔴必须	robots.txt已放行OAI-SearchBot、Claude-SearchBot、PerplexityBot等搜索引用类Bot	访问 /robots.txt 查看各User-agent规则
🔴必须	Cloudflare Bot Fight Mode已关闭或调为"托管质询"而非"屏蔽"	CF控制台 Security > Bots 检查设置
🔴必须	关键页面使用SSR，禁用JS后正文完整可见	Chrome开发者工具禁用JS后刷新页面
🔴必须	sitemap.xml完整且已提交至百度/Google Search Console	访问 /sitemap.xml；搜索控制台查看覆盖率
🟡重要	重要内容页距首页点击深度 ≤3次	Screaming Frog或手动追踪点击层级
🟡重要	Core Web Vitals达标（LCP<2.5s、INP<200ms、CLS<0.1）	Google PageSpeed Insights输入URL检测
🟡重要	JSON-LD包含Organization Schema（品牌名、地址、联系方式、服务类型）	Google结构化数据测试工具验证
🟡重要	主要服务/产品页含Article或Service Schema + FAQPage	同上
🟢建议	根目录存在llms.txt，列出网站简介与核心页面链接	访问 /llms.txt；或用isitagentready.com扫描
🟢建议	robots.txt中包含Content-Signal意图声明	访问 /robots.txt 检查是否有Content-Signal行

「30+网站交付项目里，超过六成的旧站改造第一项就挂——Cloudflare开了Bot Fight Mode，OAI-SearchBot和Claude-SearchBot全被拦截，AI里找不到客户品牌，客户自己也不知道。现在我们的交付标准是：AIGEO架构10项自检表是建站验收的必过项，而不是后期增值包。」

— 徐勇，云享耕科技创始人 · 技术与数字化运营负责人，基于30+网站项目的实践归纳

想对照实际网站做完整诊断，云享耕AIGEO专题提供了三层架构的详细实现说明；含AIGEO架构的建站套餐起步价在官网定价区可直接查阅；AIGEO与SEO的协同关系，见《SEO还有用吗？2026年双轨转型指南》；品牌实体如何配置才能让AI准确识别，见建站前必看。

Q：我的网站用了WordPress，需要重建才能满足AIGEO架构要求吗？

A：不需要重建。WordPress本身支持SSR，内容写入HTML没有问题。主要改造点是：用Yoast SEO或RankMath插件生成Organization/Article/FAQPage JSON-LD；手动创建llms.txt文件并上传到网站根目录；在robots.txt里放行搜索引用类AI Bot；检查并关闭Cloudflare Bot Fight Mode。改动都在配置层面，不需要动主题或迁移。

Q：放行OAI-SearchBot和Claude-SearchBot，会不会导致我的内容被用于训练模型？

A：不会。OpenAI和Anthropic都已明确把训练爬虫（GPTBot、ClaudeBot）和搜索引用爬虫（OAI-SearchBot、Claude-SearchBot）拆分为独立系统，可以分别控制。允许Claude-SearchBot ≠ 允许ClaudeBot抓取训练数据。如果想同时屏蔽训练抓取并保留搜索引用，只需在robots.txt里屏蔽GPTBot和ClaudeBot、放行OAI-SearchBot和Claude-SearchBot即可。

Q：JSON-LD加了有没有用？网上有说法称AI不读JSON-LD？

A：这个说法部分准确。2025年一项受控实验测试了把内容仅写入JSON-LD的情况，主流AI平台均未能从中提取并引用——AI确实不把JSON-LD作为优先引用源。但JSON-LD的核心价值仍然存在：帮助AI识别品牌实体（Organization Schema是AI理解"这家公司是谁"的重要信号）、以及通过Google SEO间接提升内容被AI引用的概率。结论是：加，但别指望它单独解决问题。

Q：llms.txt文件有没有数据证明它有效？

A：直接效果数据目前很稀少，主要AI平台也没有公开说"我们会优先读llms.txt"。Evil Martians等机构的服务器日志分析显示，AI爬虫并不会主动请求llms.txt。但它的实际价值在另一个场景：当用户手动把网站URL粘贴进ChatGPT或Claude时，AI会尝试读取/llms.txt来快速理解网站结构——这类人工触发的引用场景，llms.txt的价值明确。实现成本接近零，建议做。

Q：Perplexity不遵守robots.txt是真的吗？

A：有记录的案例确实存在。Cloudflare在2025年8月的报告记录了Perplexity使用未声明User-Agent、轮换IP来绕过robots.txt限制的行为，Perplexity对此有争议。这是目前AIGEO领域尚未解决的真实局限：robots.txt是"君子协定"，技术上无法强制执行，只对遵守协议的爬虫有效。Cloudflare Bot Management等边缘层防护可以提供更强的执行能力，但企业需要在内容保护和AI可见度之间自行权衡。

AI爬虫的访问量在持续增长，但它能不能实际读到你的网站，完全取决于这两件事有没有做对：门开没开（robots.txt + Cloudflare配置），进来后看没看到内容（SSR + 页面结构）。技术架构先于内容运营——内容再好，技术层没通，一切为零。

一个值得持续观察的方向：随着AI Agent式搜索（用户让AI代为完成调研和采购的模式）在2026年逐渐成熟，网站的AIGEO架构质量不只影响"被引用"，还会影响"被AI代理直接采取行动"——这两件事的技术要求已经开始分叉，谁先注意到这个分叉，谁就先一步布局。

参考文献

Cloudflare · 2025 Radar Year in Review: AI Crawlers (2025)

Evil Martians · Making your site visible to LLMs: 6 techniques that work, 8 that don't (2026)

OpenAI · GPTBot and OAI-SearchBot Documentation (2026)

Anthropic · ClaudeBot, Claude-SearchBot and Claude-User Bot Policy (2026)

Google Developers · Core Web Vitals (2026)

张文保（保哥笔记）· AEO优化：怎么让内容被AI搜索引用 (2026)