一家公司阻止 AI 网络爬虫窃取您的内容的狡猾计划
快速阅读: 据《可混搭》称,Cloudflare推出新计划“人工智能迷宫”,通过设置虚假网页诱捕违规AI爬虫,防止未经授权的数据抓取,保护网站内容,同时避免影响人类用户。
人工智能正在窃取你的内容数据。我们知道,这是人工智能公司建立其高价值业务的方式——通过抓取网络并使用你的数据来训练他们的聊天机器人。网络爬虫并非新鲜事。在过去,网站可以依靠简单的协议,如`robots.txt`文件,来定义网络爬虫可以或不可以使用的资源。这些指导方针曾被从事爬取工作的公司所遵守,例如用于构建搜索引擎的结果。
然而,人工智能公司无视这些指示,没有遵守这一社会契约。Cloudflare,一个帮助世界上一些最大型网站向用户交付内容的全球网络服务提供商,已经制定了一项新的计划来应对人工智能公司的网络爬虫。这个想法既巧妙又富有创意。
在一篇新的博客文章中,Cloudflare 分享了它如何“诱捕违规机器人进入人工智能迷宫”。基本上,那些不遵循通过诸如`robots.txt`等协议为其设定规则的机器人——这是一种简单的文本文件,规定了网络爬虫可以在站点上做什么——会被干扰,从而浪费负责管理这些机器人的公司的时间和资源。
Cloudflare 表示:“人工智能生成的内容呈爆炸式增长……与此同时,我们也看到了人工智能公司用于模型训练的数据爬取工具数量的激增。” “人工智能爬虫每天向我们的 Cloudflare 网络发出超过 500 亿个请求,占我们观察到的所有网页请求不到 1%。”
Cloudflare 表示,它之前只是简单地阻止人工智能网络爬虫和抓取工具。然而,这样做会让背后操控者意识到它们的访问被拒绝了,结果它们会改变策略以继续其抓取活动。因此,Cloudflare 想出了一个设下陷阱的策略:一系列由人工智能生成内容创建的虚假网页。
Cloudflare 表示,它之前只是简单地阻止人工智能网络爬虫和抓取工具。然而,这样做会让背后操控者意识到它们的访问被拒绝了,结果它们会改变策略以继续其抓取活动。Cloudflare 利用人工智能生成的内容来对抗人工智能爬虫,这不仅仅是为了报复。当人工智能基于人工智能生成的内容进行训练时,实际上会损害人工智能模型本身。行业内甚至为此创造了一个术语:“模型崩溃”。
Cloudflare 实质上是在确保违规机器人因违反规则而受到惩罚。
Cloudflare 的帖子详细说明了构建人工智能迷宫的技术细节。但其主要思路是,Cloudflare 设计的一切方式都应确保人类访客不会看到这些由人工智能生成的陷阱页面。此外,人类会注意到这些页面上的“人工智能生成的胡言乱语”。然而,机器人会陷入兔子洞,随着它们深入多页人工智能生成的内容,浪费计算资源。
Cloudflare 的客户目前可以选择开启人工智能迷宫功能,以保护他们的内容免受网络爬虫的侵害。Cloudflare 的帖子详细说明了构建人工智能迷宫的技术细节。但其主要思路是,Cloudflare 设计的一切方式都应确保人类访客不会看到这些由人工智能生成的陷阱页面。此外,人类会注意到这些页面上的“人工智能生成的胡言乱语”。然而,机器人会陷入兔子洞,随着它们深入多页人工智能生成的内容,浪费计算资源。
(以上内容均由Ai生成)