### [Cloudflare出手了:AI公司想抓内容训练,得先付钱](https://www.willai.cc/article/3168) **Published:** 2026-07-03T01:27:14 **Author:** hiyoho **Excerpt:** Cloudflare出手了:AI公司想抓内容训练,得先付钱 Cloudflare这几天扔了一颗炸弹——从今年9月15日起,它的默认设置会直接屏蔽那些”混合用途”的网络爬虫。啥叫混合用途?就是那些一边帮你做搜索索引、一边偷偷抓数据去训练AI的 ### Cloudflare出手了:AI公司想抓内容训练,得先付钱 Cloudflare这几天扔了一颗炸弹——从今年9月15日起,它的默认设置会直接屏蔽那些”混合用途”的网络爬虫。啥叫混合用途?就是那些一边帮你做搜索索引、一边偷偷抓数据去训练AI的爬虫。 这个时间点卡得很准。Cloudflare的CEO Matthew Prince说得直接:”现在互联网上大部分流量已经不是人产生的了,我们得动作快点,不然可持续的生态系统建不起来。”他指的是前不久的一个里程碑——机器人流量历史上第一次超过了人类流量,而且这事儿本来预计明年才发生。 ![Cloudflare AI爬虫政策概念图](https://admin.hiyoho.com/wp-content/uploads/2026/07/cloudflare_ai_policy.png) Cloudflare要求AI公司为内容付费 | 来源:AI生成 被点名的最大的那家搜索引擎(你懂的,Google)一下子有点尴尬。Cloudflare说它手里的信息量比别的AI公司多出约两倍,就是因为搜索巨头让客户很难只保留搜索可见性而拒绝AI使用。 > Google当然不服气,说自己有个叫”Google Extended”的机器人,网站主可以自主选择不让内容被用于训练Gemini这类AI产品,而且不影响搜索收录。但问题是,Googlebot这个主力爬虫是给搜索用的,可搜索里现在也塞进了AI Overview和AI Mode——这界线本身就模糊。 Cloudflare这一招的影响不容小觑。它手里管着大量网站的流量入口,这一改默认设置,AI公司想抓广告支持类网站的内容训练模型,门儿都没有——除非网站主自己手动改设置。 更有意思的是,Cloudflare把原来的”按抓取付费”(Pay Per Crawl)升级成了”按使用付费”(Pay Per Use)。意思是,AI公司不光是抓内容的时候要付钱,真用这些内容产生了价值,还得再付。 目前已经有两个合作伙伴在用这个模式:Ceramic.ai和You.com。发布商加入之后,只要自家内容出现在Ceramic的AI搜索结果里,或者You.com调取了付费内容,就能拿到分成。 Cloudflare给出的数据挺扎心:AI爬虫的抓取流量里,超过50%是在重复抓取没变化的页面。这不光是版权问题,还是算力浪费问题。 这件事的大背景是,网站主们其实并不反对自己的内容被搜到,甚至也不反对被AI服务引用,但白给别人拿去训练商用模型,这账怎么算都不划算。Cloudflare这回相当于给了他们一个杠杆,把”要不要用”的选择权拿了回来。 * * * 📎 原文来源:[Cloudflare’s new policy pushes AI companies to pay for publishers’ content](https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/) **Tags:** AI技术, AI政策, AI数据 **Categories:** AI资讯 ---