暂无菜单项

Cloudflare 给 AI 公司下了最后通牒:9月15日之前,要么分开爬虫,要么被挡在门外

发布于
1

Cloudflare 在 7 月 1 日甩出了一颗炸弹:从今年 9 月 15 日起,所有”混合用途”爬虫——那些既做搜索索引、又跑 AI 训练、还顺带干 Agent 活的爬虫——默认将被挡在绝大多数网站门外。除非网站主主动改设置,否则这些爬虫连页面都摸不到。

“混合爬虫”为啥成了众矢之的

Cloudflare 口中的”混合用途爬虫”,说白了就是那些既能帮你做搜索、又在偷偷扒数据去训练模型的爬虫。最典型的例子就是 Googlebot——它一边给 Google Search 抓页面,一边顺带把数据喂给 AI Overviews 和 AI Mode。网站主如果想在搜索里露脸,就不得不放 Googlebot 进来,但这也等于免费把内容送给 Google 的 AI 产品用。

Cloudflare CEO Matthew Prince 在声明里说得很直白:”现在互联网上大部分流量已经不是人类产生的了,我们必须动作更快,才能让一个可持续的生态系统跑起来。”

他提到的那个”里程碑”,是指今年 6 月 bots 流量首次超过人类流量——这件事比专家预期的早了一年。

9 月 15 日大限之后会发生什么

新默认规则生效后,所有新注册的 Cloudflare 客户、现有客户新建的站点,以及所有免费用户,都会自动启用这个拦截策略。也就是说,AI 公司要么把搜索爬虫和训练/ Agent 爬虫分开,用不同的 User-Agent 和爬虫策略;要么就去跟网站主谈条件,别想着白嫖。

Cloudflare 也不是突然翻脸。过去两年它一直在推相关工具:2024 年推出 AI 爬虫屏蔽工具,2025 年上线了”Pay Per Crawl”市场,让网站主可以给 AI 爬虫开价。现在这个机制升级成了”Pay Per Use”——不光是抓数据要收费,AI 公司用网站内容产生价值的时候,也得分成。


Ceramic.ai 和 You.com 先试水

Cloudflare 已经拉了两个合作伙伴进来趟路:Ceramic.ai 和 You.com。如果出版方选择加入,当他们的内容出现在 Ceramic 的 AI 搜索结果里,或者被 You.com 调用了付费内容,就能拿到钱。

这对出版商来说是个好消息。过去两年,AI 摘要把搜索流量的命给革了——用户直接在搜索结果页看到答案,懒得点进原文。现在至少有了讨价还价的筹码。

不过 AI 公司那边肯定不乐意。Cloudflare 的数据显示,AI 爬虫有超过一半的流量花在重复抓取没有变化的页面上——这纯属浪费带宽和计算资源。如果以后每爬一次都要花钱,AI 公司的数据获取成本怕是要涨不少。

Google 怎么回应

Cloudflare 在声明里点了”全球最大搜索引擎”的名——这显然是说 Google。Cloudflare 称 Google 比其他 AI 公司多拿到约 2 倍的信息量,因为搜索巨头让客户很难在”被搜索索引”和”被用于 AI”之间二选一。

Google 当然不认这个账。它说自己有专门的”Google Extended”爬虫,网站主可以用它来选择退出训练用途,且不影响搜索收录。但问题是,Googlebot 本身也在为 AI Overviews 和 AI Mode 抓数据——这两者之间的界限,普通网站主根本搞不清楚。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600