Cloudflare 给 AI 公司下了最后通牒：9月15日之前，要么分开爬虫，要么被挡在门外

Cloudflare 在 7 月 1 日甩出了一颗炸弹：从今年 9 月 15 日起，所有”混合用途”爬虫——那些既做搜索索引、又跑 AI 训练、还顺带干 Agent 活的爬虫——默认将被挡在绝大多数网站门外。除非网站主主动改设置，否则这些爬虫连页面都摸不到。

“混合爬虫”为啥成了众矢之的

Cloudflare 口中的”混合用途爬虫”，说白了就是那些既能帮你做搜索、又在偷偷扒数据去训练模型的爬虫。最典型的例子就是 Googlebot——它一边给 Google Search 抓页面，一边顺带把数据喂给 AI Overviews 和 AI Mode。网站主如果想在搜索里露脸，就不得不放 Googlebot 进来，但这也等于免费把内容送给 Google 的 AI 产品用。

Cloudflare CEO Matthew Prince 在声明里说得很直白：”现在互联网上大部分流量已经不是人类产生的了，我们必须动作更快，才能让一个可持续的生态系统跑起来。”

他提到的那个”里程碑”，是指今年 6 月 bots 流量首次超过人类流量——这件事比专家预期的早了一年。

9 月 15 日大限之后会发生什么

新默认规则生效后，所有新注册的 Cloudflare 客户、现有客户新建的站点，以及所有免费用户，都会自动启用这个拦截策略。也就是说，AI 公司要么把搜索爬虫和训练/ Agent 爬虫分开，用不同的 User-Agent 和爬虫策略；要么就去跟网站主谈条件，别想着白嫖。

Cloudflare 也不是突然翻脸。过去两年它一直在推相关工具：2024 年推出 AI 爬虫屏蔽工具，2025 年上线了”Pay Per Crawl”市场，让网站主可以给 AI 爬虫开价。现在这个机制升级成了”Pay Per Use”——不光是抓数据要收费，AI 公司用网站内容产生价值的时候，也得分成。

Ceramic.ai 和 You.com 先试水

Cloudflare 已经拉了两个合作伙伴进来趟路：Ceramic.ai 和 You.com。如果出版方选择加入，当他们的内容出现在 Ceramic 的 AI 搜索结果里，或者被 You.com 调用了付费内容，就能拿到钱。

这对出版商来说是个好消息。过去两年，AI 摘要把搜索流量的命给革了——用户直接在搜索结果页看到答案，懒得点进原文。现在至少有了讨价还价的筹码。

不过 AI 公司那边肯定不乐意。Cloudflare 的数据显示，AI 爬虫有超过一半的流量花在重复抓取没有变化的页面上——这纯属浪费带宽和计算资源。如果以后每爬一次都要花钱，AI 公司的数据获取成本怕是要涨不少。

Google 怎么回应

Cloudflare 在声明里点了”全球最大搜索引擎”的名——这显然是说 Google。Cloudflare 称 Google 比其他 AI 公司多拿到约 2 倍的信息量，因为搜索巨头让客户很难在”被搜索索引”和”被用于 AI”之间二选一。

Google 当然不认这个账。它说自己有专门的”Google Extended”爬虫，网站主可以用它来选择退出训练用途，且不影响搜索收录。但问题是，Googlebot 本身也在为 AI Overviews 和 AI Mode 抓数据——这两者之间的界限，普通网站主根本搞不清楚。

📎 原文来源：Cloudflare’s new policy pushes AI companies to pay for publishers’ content — TechCrunch

Cloudflare 给 AI 公司下了最后通牒：9月15日之前，要么分开爬虫，要么被挡在门外

“混合爬虫”为啥成了众矢之的

9 月 15 日大限之后会发生什么

Ceramic.ai 和 You.com 先试水

Google 怎么回应

社交媒体把算法权还给用户：Threads、Instagram、TikTok都在做的「你的算法」是什么？

做人形机器人的Agility Robotics要上市了，估值25亿美元

鱼眼视角高级时尚九宫格写真

2026年科技大裁员：AI成了最好的借口

LangExtract：Google 出品的 LLM 结构化信息提取利器，精准溯源让 AI 抽取结果可验证

高通想做下一个英伟达，先掏出了Dragonfly CPU

DSPy：用编程取代提示词工程，Stanford 出品 LLM 应用优化框架，27.5K+ Stars

Google DeepMind掏了1000万美元，研究AI Agent互相勾兑会出什么乱子