Cloudflare 刚刚以迅雷钜万钧之势打击了 AI 网络爬虫：要么为内容付费，要么被阻止

发布时间：2025年7月11日来源：szf

快速阅读: 据《观察家报》最新报道，一家大型科技公司Cloudflare宣布阻止AI爬虫未经许可抓取内容，引发关注。此举挑战了AI公司免费获取数据的模式，可能影响网络内容生态。

本月最大的新闻是，一家大型科技公司对人工智能行业宣战。7月1日，领先的网络安全和内容分发网络（CDN）提供商Cloudflare宣布了“内容独立日”。通过其服务器的互联网流量约占全球的五分之一，从那天起，AI网络爬虫——科技公司用来抓取在线内容的机器人——在没有向网站所有者支付补偿的情况下将无法访问运行在Cloudflare服务器上的网站。为什么这是一件大事？有几个原因。

首先，跨全球不同地点运行数据中心的CDN是互联网全球架构的重要组成部分。随着网络的发展，公司希望本地化提供内容——以减少延迟，比如传输中的延迟——但要在每个地区维护服务器既昂贵又物流复杂。让CDN托管并提供你的内容是一个不言而喻的选择。

其次，网站是脆弱的东西。如果你是一家大公司，你的网站会成为分布式拒绝服务（DDoS）攻击的目标，这些攻击旨在使它瘫痪，而CDN已经变得相当擅长抵御这些虚拟攻击。例如，两个月前，Cloudflare阻止了有史以来最大的DDoS攻击：每秒7.3太字节——相当于向一个客户网络中灌入超过9350部完整长度的高清电影——的攻击。对任何首席执行官来说，这个教训都很明确：如果你想晚上睡得好，就使用CDN。

近年来，一种新的针对在线托管内容的威胁出现了：网络爬虫。这些是由AI公司运行的互联网机器人，它们系统地浏览网络，收集可以找到的所有内容，用于训练生成式AI系统，如大型语言模型（LLM）。大多数情况下，这种搜集行为并未获得内容创作者或所有者的许可，并且被各种法律术语所合理化，比如“合理使用”等；或者用荒谬的论点来辩解，即如果创作者不喜欢他们的知识产权被随意夺取，他们总是可以选择退出。

所有这些解释了Cloudflare决定的重要性。现在，它默认阻止AI网络爬虫在未经许可或赔偿的情况下从其客户的网站上抓取内容。换句话说，它巧妙地逆转了AI巨头及其在英国和其他政府中的盟友的讽刺逻辑。以前是IP所有者必须选择退出被抢劫，现在则是袭击者必须礼貌地请求——也许还要付费。

或者正如《连线》的Steven Vaughan-Nichols所说：“代表其200多万客户，占网络20%的用户，Cloudflare现在阻止AI爬虫……此外，Cloudflare承诺通过行为分析和机器学习检测‘影子’爬虫——试图逃避检测的机器人。对鹅来说好的，对鸡来说也一样好。”

从公平的角度来看，这是个好消息，但在更广泛的背景下也很重要，因为现在显而易见的是，AI的开采正在迅速破坏网络的原始商业模式。在这个模式中，你创建了一个网站并发布了内容。搜索引擎随后索引整个网络，使你的网站可被找到。然后人们可以访问该网站，并通过这样做为你带来你希望从中获得的任何回报——无论是财务还是其他方面的。

然而，越来越多的人开始使用聊天机器人进行搜索，而不是传统的搜索引擎，如谷歌、必应等。他们不再获得一个可能与他们问题相关的网站列表，而是得到一个精心包装的答案。在某些情况下（比如像Perplexity这样的AI工具），机器人会提供它编译回复所引用的网站列表。但其他机器人似乎在研究方面不够谨慎。

所以看起来发生的事情是，LLM正迅速变成“答案机器”。这对用户来说显然很方便，但也意味着他们必须信任数据是从所使用的来源中提取的过程——并且它没有“幻觉”或编造内容。具有讽刺意味的是，这也可能导致聊天机器人所依赖的这些来源枯竭，因为事实证明，许多网站现在正受到骚扰性聊天机器人的困扰。

“AI热潮，”《连线》报道说，“催生了AI聚焦型网络爬虫的相应热潮，这些机器人以频率可以模仿DDoS攻击的方式抓取网页，使服务器承受压力并使网站下线。”

AI公司应该按次支付费用了。为Cloudflare欢呼！

(以上内容均由Ai生成)