
互联网上超过一半的流量现在已经不是人在访问,而是机器人在跑。这个里程碑刚被跨过,Cloudflare就坐不住了。
2026年9月15日起,Cloudflare要把”混合用途”爬虫挡在门外——至少那些带广告的页面默认不再让这些爬虫进来了。啥叫”混合用途”爬虫?就是那些既用来做搜索索引、又用来训练AI模型的爬虫。Cloudflare说得挺直接:你得把搜索和AI训练用的爬虫分开,别想着一次爬取、多处复用。
Cloudflare联合创始人兼CEO Matthew Prince说得很明白:”现在互联网上大部分流量已经不是人类产生的了,我们必须更快行动,才能让这个生态活得下去。”
谷歌被点名了
Cloudflare在公告里没点名,但大家都看得出来——”全球最大的搜索引擎”指的就是谷歌。Cloudflare说这家搜索巨头能访问的内容量,比其他AI公司多了约两倍,原因很简单:谷歌让网站主很难在”被搜索到”和”不被AI用来训练”之间做选择。
谷歌当然不认这个账。他们说自己提供了Google Extended这个爬虫标识,网站主可以用它来选择退出AI训练。但问题是,谷歌的主力爬虫Googlebot是给搜索用的,而搜索里现在也塞进了AI Overview和AI Mode——你就算挡了Google Extended,Googlebot该爬的还是照爬,而你的内容就可能被拿去喂AI了。
这才是Cloudflare要动真格的原因。网站主想要被搜索到,但也不想自己的内容被免费拿去训练AI模型。这两个需求之间,谷歌没有给出一个干净的解决方案。
从”按次收费”到”按价值收费”
Cloudflare之前就搞过一个叫Pay Per Crawl的东西,让网站主可以向AI爬虫收费。现在这个机制进化成了”Pay Per Use”——不只是爬取的时候收钱,而是当你的内容真的给AI公司创造了价值,才来收费。
目前已经有两个合作伙伴接入了这个体系:Ceramic.ai和You.com。出版商可以选择加入,然后当他们的内容出现在Ceramic的AI搜索结果里,或者被You.com访问到的时候,就能拿到分成。
还有一个挺有意思的数据:Cloudflare发现,AI爬虫的流量里,有超过50%是在重新抓取没有变化的页面。这对出版商来说等于白白消耗带宽和计算资源,而Cloudflare的新政策至少能让这部分浪费少一点。
9月15日这个deadline距离现在还有两个多月。AI公司要是还想继续爬那些带广告的页面,要么把爬虫分开,要么就得准备好付钱了。
