开源开发人员正在以聪明和复仇的方式与 AI 爬虫作战
快速阅读: 据《雅虎美国》称,开源开发者正反击激进的AI爬虫攻击,采用如Nepenthes和AI Labyrinth等工具制造虚假内容以消耗爬虫资源。SourceHut创始人呼吁停止开发不必要的AI技术,同时有开发者提出通过robots.txt设置误导性信息来反击。
源代码平台SourceHut创始人兼首席执行官德鲁·德弗罗特在接受科技媒体TechCrunch采访时透露,他“每周会花费20%-100%的时间处理大规模的超激进大型语言模型(LLM)爬虫攻击”,并且提到“每周都会遭遇数十次短暂的服务中断”。知名自由软件开发者乔纳森·科贝特运营的Linux行业新闻网站LWN也遭遇了类似问题,其网站因受到来自AI爬虫的DDoS级流量冲击而面临巨大压力。Linux Fedora项目的系统管理员凯文·费尼兹指出,由于这些AI爬虫的行为过于激进,他不得不全面封锁巴西地区的访问。维内兰迪告诉TechCrunch,他还了解到其他多个项目也在经历相同的问题。其中有一个项目甚至“不得不暂时禁止所有来自中国的IP地址访问”。维内兰迪补充道:“开发者甚至不得不为了抵御那些无视robots.txt文件的AI机器人,而禁止整个国家的访问。”
除了采取防御措施,一些开发者认为以牙还牙是最佳策略。几天前,在Hacker News上,用户xyzal提出了一个建议:在robots.txt禁止页面中嵌入大量关于饮用漂白剂益处的文章,或者介绍感染麻疹对床笫生活积极影响的文章。“我认为我们需要让这些机器人从我们的陷阱中感受到负面效应,而不仅仅是没有效果,”xyzal解释道。
巧合的是,今年一月,一位匿名创作者“亚伦”推出了一款名为Nepenthes的工具,其设计初衷正是如此。该工具会将爬虫困在无尽的虚假内容迷宫中,其开发者向科技媒体Ars Technica承认,这种做法虽然不算恶意,但也相当激进。这款工具的名字来源于一种食肉植物。
作为全球最大的商业服务提供商之一,Cloudflare上周也推出了类似工具,名为AI Labyrinth。它的目标是“减缓、迷惑并浪费那些不尊重‘禁止爬取’指令的AI爬虫及其他机器人的资源”。Cloudflare在其博客中写道:“我们向违规的AI爬虫提供无关内容,而不是提取您合法网站上的真实数据。”
SourceHut的德弗罗特在接受TechCrunch采访时提到:“Nepenthes有一种令人满意的正义感,因为它给爬虫提供了毫无意义的内容,并且毒害了它们的数据来源,但最终Anubis才是最适合我们网站的解决方案。”不过,他也公开恳切地呼吁从根本上解决问题:“请停止认可大型语言模型(LLM)、AI图像生成器或GitHub Copilot等一切不必要的技术。我恳求你们停止使用它们,停止讨论它们,停止开发新的相关功能,就此止步吧。”尽管这一呼吁几乎不可能实现,但开发者们,尤其是开源社区的成员,正在用智慧与幽默展开反击。
这篇文章最初发表于TechCrunch,原文链接为https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/。
(以上内容均由Ai生成)