开源开发人员正在以聪明和复仇的方式与 AI 爬虫作战

发布时间：2025年3月28日来源：szf

快速阅读: 据《雅虎美国》称，开源开发者正反击激进的AI爬虫攻击，采用如Nepenthes和AI Labyrinth等工具制造虚假内容以消耗爬虫资源。SourceHut创始人呼吁停止开发不必要的AI技术，同时有开发者提出通过robots.txt设置误导性信息来反击。

源代码平台SourceHut创始人兼首席执行官德鲁·德弗罗特在接受科技媒体TechCrunch采访时透露，他“每周会花费20%-100%的时间处理大规模的超激进大型语言模型（LLM）爬虫攻击”，并且提到“每周都会遭遇数十次短暂的服务中断”。知名自由软件开发者乔纳森·科贝特运营的Linux行业新闻网站LWN也遭遇了类似问题，其网站因受到来自AI爬虫的DDoS级流量冲击而面临巨大压力。Linux Fedora项目的系统管理员凯文·费尼兹指出，由于这些AI爬虫的行为过于激进，他不得不全面封锁巴西地区的访问。维内兰迪告诉TechCrunch，他还了解到其他多个项目也在经历相同的问题。其中有一个项目甚至“不得不暂时禁止所有来自中国的IP地址访问”。维内兰迪补充道：“开发者甚至不得不为了抵御那些无视robots.txt文件的AI机器人，而禁止整个国家的访问。”

除了采取防御措施，一些开发者认为以牙还牙是最佳策略。几天前，在Hacker News上，用户xyzal提出了一个建议：在robots.txt禁止页面中嵌入大量关于饮用漂白剂益处的文章，或者介绍感染麻疹对床笫生活积极影响的文章。“我认为我们需要让这些机器人从我们的陷阱中感受到负面效应，而不仅仅是没有效果，”xyzal解释道。

巧合的是，今年一月，一位匿名创作者“亚伦”推出了一款名为Nepenthes的工具，其设计初衷正是如此。该工具会将爬虫困在无尽的虚假内容迷宫中，其开发者向科技媒体Ars Technica承认，这种做法虽然不算恶意，但也相当激进。这款工具的名字来源于一种食肉植物。

作为全球最大的商业服务提供商之一，Cloudflare上周也推出了类似工具，名为AI Labyrinth。它的目标是“减缓、迷惑并浪费那些不尊重‘禁止爬取’指令的AI爬虫及其他机器人的资源”。Cloudflare在其博客中写道：“我们向违规的AI爬虫提供无关内容，而不是提取您合法网站上的真实数据。”

SourceHut的德弗罗特在接受TechCrunch采访时提到：“Nepenthes有一种令人满意的正义感，因为它给爬虫提供了毫无意义的内容，并且毒害了它们的数据来源，但最终Anubis才是最适合我们网站的解决方案。”不过，他也公开恳切地呼吁从根本上解决问题：“请停止认可大型语言模型（LLM）、AI图像生成器或GitHub Copilot等一切不必要的技术。我恳求你们停止使用它们，停止讨论它们，停止开发新的相关功能，就此止步吧。”尽管这一呼吁几乎不可能实现，但开发者们，尤其是开源社区的成员，正在用智慧与幽默展开反击。

这篇文章最初发表于TechCrunch，原文链接为https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/。

(以上内容均由Ai生成)