暂无菜单项

Cloudflare 开出最后期限:AI 公司想白嫖内容,9月15日之后没门了

发布于
1
Cloudflare AI内容保护概念图
Cloudflare AI 内容保护政策概念图(AI生成)

Cloudflare 本周三宣布了一件事:从今年 9 月 15 日起,旗下所有新客户、现有免费客户,以及现有客户新建的站点,默认将屏蔽那些”混合用途”的爬虫。换句话说,AI 公司想一边借搜索爬虫的名义进来、一边免费把内容拿走训练模型,这套玩法快走到头了。

Cloudflare 给出的理由是:大多数网站主希望自己的内容被搜索到,也希望被 AI 服务推荐,但不希望自己的知识产权被白白拿走。新政策的核心,是强迫 AI 公司把”搜索爬虫”和”训练/智能体爬虫”分开。

谷歌被点名了

Cloudflare 在公告里没点名,但大家都知道它在说谁——”全球最大的搜索引擎”拥有大约两倍于其他 AI 公司的信息量,原因很简单:它让客户很难在”被搜索到”和”不被用于 AI 训练”之间做选择。

谷歌当然不服气。它回应说,自己提供了一个叫 Google Extended 的爬虫,网站主可以用它来选择不被训练。但问题是,谷歌的主爬虫 Googlebot 同时服务于搜索和 AI 功能(比如 AI Overviews),站点主如果屏蔽了它,搜索排名也会受影响。这就是 Cloudflare 说的”混合用途”问题。

从”按次收费”到”按价值收费”

这件事的背景是,Cloudflare 去年就已经上线了一个叫 Pay Per Crawl 的市场,让网站主可以向 AI 爬虫收费。现在,这个机制正在升级为”Pay Per Use”——不只是”你来爬我就要钱”,而是”你的 AI 用我的内容产生了价值,我也要分一杯羹”。

目前 Cloudflare 先拉了两个合作伙伴:Ceramic.ai 和 You.com。一旦网站主选择加入,当他们的内容出现在 Ceramic 的 AI 搜索结果里,或者被 You.com 调用了付费内容,就能拿到分成。


为什么是现在?

Cloudflare 联合创始人兼 CEO Matthew Prince 说得很直白:互联网流量现在大部分已经不是人类产生的了,必须快点行动,才能出现一个可持续的生态系统。他指的是上个月刚发生的里程碑——爬虫流量历史上第一次超过了人类流量。

还有一个更实际的原因:Cloudflare 的数据显示,AI 爬虫有超过 50% 的爬取时间花在重新抓取没有变化的页面上。这对网站主来说,是纯粹的带宽和计算资源浪费。

AI 公司会乖乖交钱吗?

这恐怕是最大的问号。Cloudflare 的这次政策调整,本质上是用”默认屏蔽”来倒逼 AI 公司坐到谈判桌前。如果你是一家 AI 公司,你的爬虫被 Cloudflare 默认挡掉了,你要么乖乖分开你的爬虫、要么去跟网站主一个个谈授权。

对一些有实力的 AI 实验室来说,这可能意味着训练数据的成本要显著上升。尤其是那些严重依赖”公开网络数据”的模型,下一步怎么走,会是个大问题。反过来,这也可能催生一批专门做”合规训练数据”的公司——毕竟,有人愿意付钱,就有人愿意卖。

不管怎样,9 月 15 日是个节点。到那一天,AI 公司和内容创作者之间的权力天平,可能会往后者那边倾斜一点点。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600