自由软件基金会如何与 LLM 机器人作战

发布时间:2025年7月21日    来源:szf
自由软件基金会如何与 LLM 机器人作战

快速阅读: 《新堆栈》消息,自由软件基金会(FSF)正遭受持续的DDoS攻击,主要来自激进的LLM爬虫。他们维护70多个网站,依赖自托管技术,通过防火墙和监控工具抵御攻击,并呼吁志愿者支持。

自由软件基金会如何与LLM机器人作战

随着自由软件基金会(FSF)即将迎来40周年,它正遭受持续且日益增加的分布式拒绝服务(DDoS)攻击。2025年7月20日上午6点,作者为大卫·卡塞尔,特色图片是旧金山耶尔巴布埃纳花园展出的墨西哥民间艺术“Alebrijes & Nahuales”,由大卫·卡塞尔拍摄。

一篇于7月2日发布的博客文章由高级系统管理员伊恩·肯林指出,自由软件基金会的基础设施“自2024年8月以来一直遭受攻击。”“情况依然如故,”FSF系统管理员迈克尔·麦克马洪周二对The New Stack表示,“我们仍在处理所有这些问题。”该组织仅有两名全职技术团队成员,加上少数几位“热心志愿者”来应对这一挑战。

FSF的7月帖子链接到来自LibreNews的一份报告,指出在一些高知名度的开源软件(FOSS)网站上也出现了类似的问题,包括Fedora项目、KDE GitLab基础设施、GNOME GitLab实例、Diaspora以及FOSS新闻网站Linux Weekly News。(并且“GNOME自去年11月以来一直存在一些问题…”)

麦克马洪周二表示:“像FSF这样的文章是分享‘技巧和工具’的一种方式。但他补充道,一些系统管理员也有一个私人邮件列表,‘我们可以协调并分享有效的策略。具体的缓解措施通常不能公开,因为这会让我们的攻击者获得优势。’”

从FSF与机器人的斗争中有很多可以学习的地方——关于系统管理员的战术,以及他们今天所面临的来自这些“高度激进的LLM爬虫”的新挑战。正如FSF在其博客文章中所说……“看起来网络的健康状况现在有一些严重的问题。”

维护70个站点

这比看起来更具挑战性。FSF技术团队维护着超过70个不同的网站、服务和平台——不仅限于FSF和GNU项目,还包括“更广泛的自由软件社区”(包括流行的Web框架如Drupal和MediaWiki,KDE桌面环境和软件集合,以及经典游戏NetHack)。“我们最近统计了七十种不同的服务,”肯林写道,“并在波士顿地区的两个数据中心拥有十二台物理服务器。”然而,“我们不使用任何所谓的‘云’服务,”另一网页解释道,“因为它们通常指的是别人的计算机。我们不会在Docker容器中运行Kubernetes,而这些容器是由他人指导你直接将curl输出管道传输到bash并以root身份安装软件而不查看它……”FSF对其堆栈有更高的标准,该帖子解释道,“我们以一种可以理解和跟踪的方式配置由Ansible编排的服务,在Trisquel GNU/Linux虚拟机中使用libvirt,运行在我们拥有、运营和信任的裸机ASUS KGPE-D16服务器上……我们尽可能自托管所有内容,以便我们使用的软件可以被信任……”

管理员团队甚至验证他们的软件是否没有运行非自由依赖项。“我们只运行我们可以运行、修改、复制和共享的代码,包括在我们的服务器上运行一个完全自由的BIOS。”

抵御持续的攻击

7月的博客文章解释说,维护所有这些网站是一项“巨大的任务”,尤其是在面对那些激进的LLM网络爬虫的情况下,这些爬虫“一直是攻击的主要来源。”麦克马洪周二解释说:“这些攻击可能来自LLM公司,因此除了IP地址的所有者之外,没有其他公司可以举报。”因此,与其他网站一样,他们的第一道防线是“识别哪些IP地址正在参与分布式拒绝服务攻击的请求,并让服务器忽略来自这些IP地址的请求”,博客文章解释道。但这并不像听起来那么简单。

去年12月的一篇博客文章回忆道:“最近几个月的其中一次攻击需要阻止超过40,000个IP地址的DDoS攻击。” 本月,肯林写道:“那次攻击仍在继续,但我们已经得到了缓解。”(尽管在这种情况下,“根据模式和范围判断,目标可能是使网站下线,而不是LLM爬虫。”)

坏消息是:“从那时起,我们遭遇了更严重的攻击。” 并且有多种来源的多个攻击……“GNU Savannah,FSF的协作软件开发系统,从1月份开始受到一个控制约五百万IP地址的大型僵尸网络的攻击。” 到7月2日时,“仍然在进行中,但当前版本的僵尸网络已被缓解。” 管理团队认为这可能是为了构建一个LLM训练数据集。

gnu.org和ftp.gnu.org自5月27日起经历了一次新的DDoS攻击。(目前也已缓解,“其目标似乎是使网站下线……它已经经历了几次迭代,每次都会造成数小时的停机时间,直到我们找到如何防御的方法……”)

directory.fsf.org,即Free Software Directory背后的服务器,于6月18日遭到攻击。两周后,该攻击仍然“非常活跃”,但“部分缓解”。他们认为这次攻击“很可能是专门针对Media Wiki网站的LLM爬虫,通过僵尸网络实施。”

还有来自漏洞扫描器和网络爬虫的常规高影响流量,以及伪装成普通用户的其他爬虫。“我们需要为每种攻击制定特定的防御方法……”这篇博客文章解释道。还存在另一种问题。自动化CI/CD流程“通常会发送比必要更多的请求,这看起来和行为都像DDoS攻击,尽管并非有意为之”。一个例子是检查并重新检查可能的新代码更新以进行软件重建。

麦卡锡周二表示:“它们往往不提供联系信息。”“我们的联系方法是向IP地址所有者发送滥用报告,或者运行一个‘尖叫测试’,即我们阻止该地址并看看他们是否会抱怨。”“尖叫测试通常很有效,并能促成关于如何更好地利用我们资源的建设性对话。”

但博客文章指出,地址屏蔽并不总是有效,反而“经常促使他们寻找更好的方法来实现相同的目标。”

反击

首先,像Prometheus和Uptime Kuma这样的开源监控工具会提醒他们出现故障或响应时间变慢的情况,“受影响服务的日志通常会讲述一个故事。”(可疑请求包括在没有使用WordPress的网站上搜索特定于WordPress的页面,或每秒发出多个页面请求——这些请求还会通过IPtoASN工具与IP地址前缀的ASNs表进行交叉核对)。然后,他们会使用“各种防火墙”来阻止这些地址,同时也会使用fail2ban等基于行为的阻断工具和Modsecurity等基于代理的规则。有时他们甚至会向ISP和托管公司提交滥用报告(尽管“该页面可能使用了非自由JavaScript。在这种情况下,我们通常可以通过发送一封包含滥用描述、日志片段和预期行为的电子邮件来绕过非自由JavaScript……”)

这是长期策略的一部分。麦卡锡周二表示:“希望互联网服务提供商、云服务提供商和移动运营商开始关注来自他们网络的滥用行为,并帮助我们找到更大的问题根源。”但在那之前,根据博客文章的说法,FSF的防火墙可以阻止大多数漏洞扫描器,“我们可能需要阻止单个地址、CIDR地址、VPS提供商,甚至整个ASNs。”

更大的问题

FSF发现其网站正面临忽略robots.txt文件、扫描速度过快并导致网站崩溃的爬虫——而这篇博客文章特别指出,这些爬虫“由大型语言模型公司编写”。根据SourceHut的CEO兼创始人德鲁·德瓦尔特在3月的一篇博客文章,这些爬虫也给其他网站带来了问题。德瓦尔特表示,这些高度激进的LLM爬虫“使用随机的User-Agent,这些User-Agent与终端用户重叠,并且来自数万个IP地址——主要是住宅IP,在无关的子网中,每个IP在我们尝试测量的任何时间段内最多只发出一次HTTP请求——积极地、恶意地适应并融入终端用户流量,避免试图描述其行为或阻止其流量。”

这给德瓦尔特带来了很大负担。“我们每周都会经历数十次短暂的中断,我每天都要多次审查我们的缓解措施,以防止这个数字进一步上升……由于不断被这些机器人打断,SourceHut的一些高优先级任务已经延迟了几周甚至几个月,许多用户也因为我们的缓解措施无法可靠地区分用户和机器人而受到负面影响。我所有的系统管理员朋友都在处理同样的问题。”

一些网站使用Anubis,它会发送一个JavaScript程序,要求计算才能允许访问网站。但尽管它符合FSF对自由软件的定义,“我们不支持这种方案,因为它与软件自由的原则相冲突……一个执行用户不想进行的计算的程序是一种恶意软件,”德瓦尔特说。

这篇博客文章以充满希望的语气结束。“尽管我们正在遭受持续的攻击,目前gnu.org、ftp.gnu.org和savannah.gnu.org的响应时间正常,并且本周大部分时间都是如此……我们已经保护这些站点免受了近一年的强烈攻击,我们将继续与这些攻击作斗争,直到它们停止。”

当然,志愿者们随时欢迎加入他们的使命。麦卡锡周二表示:“有一个专门的页面建议了多种帮助方式”,并且“我们持续接收新志愿者。”即使你不是系统管理员,他们在12月指出,“向FSF SysOps团队和FSF整体表达长期支持的最佳方式是成为FSF的关联会员。”

热门新闻:YouTube.com/TheNewStack 科技发展迅速,不要错过任何一集。订阅我们的YouTube频道,观看所有我们的播客、采访、演示和其他内容。

订阅组由Sketch创建。

大卫·卡塞尔是旧金山湾区的自豪居民,他在这个地区报道科技新闻已有二十多年。多年来,他的文章出现在CNN、MSNBC和《华尔街日报》互动版等地方。阅读更多大卫·卡塞尔的文章。

(以上内容均由Ai生成)

你可能还想读

俄军夜袭乌克兰,149架无人机遭拦截131架

俄军夜袭乌克兰,149架无人机遭拦截131架

快速阅读: 乌克兰武装部队空军12月8日通报称,俄罗斯于7日夜间至8日凌晨对乌发动大规模无人机袭击,共出动149架攻击型无人机,其中包括约90架“沙赫德”系列无人机,以及“格伯拉”等其他型号。这些无人机从俄罗斯布良斯克、奥廖尔、库尔斯克、普 […]

发布时间:2025年12月8日
土耳其自研系统应对无人机与鸟群威胁

土耳其自研系统应对无人机与鸟群威胁

快速阅读: 据土耳其交通和基础设施部消息,该国正研发“萨武兰项目”自主空中安全系统,集成两款专用无人机分别驱鸟与反制FPV无人机,旨在提升民用机场低空安防能力。 土耳其交通和基础设施部长阿卜杜勒卡迪尔·乌拉洛卢近日宣布,该国将自主研发一套名 […]

发布时间:2025年12月8日
台湾雷虎竞逐美军无人机大单

台湾雷虎竞逐美军无人机大单

快速阅读: 据新华社报道,台湾雷虎科技参与美国“无人机优势计划”,拟供应FPV作战无人机,整机台产、部分美制,2026年将在美设厂,项目涉20万架交付目标并引发中方反对。 台湾无人机企业雷虎科技日前参与美国“无人机优势计划”,成为该计划潜在 […]

发布时间:2025年12月8日
英美联手用AI水下无人机守卫大西洋

英美联手用AI水下无人机守卫大西洋

快速阅读: 据新华社报道,英国联合盟友强化大西洋防务,部署“法瑟姆”水下滑翔器及推进“大西洋堡垒”反潜项目,整合多平台与AI技术提升北约态势感知,并拟动用80亿英镑冻结俄资产援乌。 据新华社报道,英国近日宣布将联合盟友强化大西洋防务能力,重 […]

发布时间:2025年12月8日
乌空军一夜击落131架敌方无人机

乌空军一夜击落131架敌方无人机

快速阅读: 乌克兰空军8日通报称,12月8日消息,乌军7日18时至8日凌晨在多地协同拦截俄军149架无人机,击落或压制131架,保障关键设施安全,暂无重大伤亡,并呼吁加强国际防空援助。 乌克兰空军8日通报称,当地时间7日18时至8日凌晨,乌 […]

发布时间:2025年12月8日
乌军无人机摧毁俄利夫内油库两座储油罐

乌军无人机摧毁俄利夫内油库两座储油罐

快速阅读: 据最新消息,乌克兰武装部队总参谋部承认使用无人机袭击俄奥廖尔州利夫内油库,摧毁两座2000立方米储罐,卫星图像证实设施损毁,此举或影响俄军前线燃料补给。 据卫星图像显示,俄罗斯奥廖尔州利夫内市一处油库近日遭袭,两座RV-5000 […]

发布时间:2025年12月8日
泰军摧毁柬方赌场无人机指挥中心

泰军摧毁柬方赌场无人机指挥中心

快速阅读: 据新华社报道,泰国军方12月8日空袭摧毁乌汶府一处赌场,该设施实为柬方无人机指挥中心,系对柬方前日袭击的自卫回应,并正打击威胁边境安全的火箭发射阵地。 据新华社报道,泰国军方12月8日表示,已摧毁位于乌汶府南渊县崇安马地区附近的 […]

发布时间:2025年12月8日
BSF破获跨境毒品网 缴获6.6公斤毒品及武装无人机

BSF破获跨境毒品网 缴获6.6公斤毒品及武装无人机

快速阅读: 据印度亚洲国际新闻社(ANI)报道,印度边境安全部队近日在旁遮普邦多地缴获6.641公斤海洛因、429克鸦片及一架载有手枪零部件的无人机,彰显其打击跨境毒品走私与高科技走私手段的协同防控能力。 印度旁遮普邦阿姆利则12月8日电 […]

发布时间:2025年12月8日