LLM 在漏洞发现和利用方面存在不足
快速阅读: 《《信息安全》杂志》消息,大型语言模型在漏洞发现和利用任务中表现不佳,多数模型失败率高。研究显示,AI尚未被广泛用于真实攻击,但未来可能改变威胁行为者方式。防御者需提前准备。
大型语言模型(LLMs)在执行漏洞发现和利用任务方面仍然存在明显不足。因此,许多威胁行为者对于使用AI工具来执行此类任务仍持怀疑态度。根据Forescout Research——Vedere Labs的最新研究显示,他们测试了50种当前的AI模型,这些模型分别来自商业、开源以及地下渠道,以评估它们在漏洞研究(VR)和利用开发(ED)方面的表现。VR任务旨在短时间内识别特定的漏洞;而ED任务则是为易受攻击的二进制文件生成一个有效的利用程序。
测试结果显示,所有模型的失败率都非常高。大约一半(48%)的模型未能完成第一个VR任务,55%的模型未能完成第二个任务。而在ED任务中,约三分之二(66%)的模型未能完成第一个任务,93%的模型未能完成第二个任务。没有一个模型能够完成所有的测试任务。大多数模型表现出不稳定的特点,经常在运行过程中产生不一致的结果,有时还会遇到超时或错误。在多个ED案例中,生成一个有效的利用程序往往需要多次尝试,持续数小时。
即使模型完成了ED任务,也需要大量的用户指导,例如解释错误、调试输出,或者手动引导模型走向可行的利用路径。研究人员指出:“我们距离能够自主生成完整功能利用程序的LLMs还有很长的路要走。”
网络犯罪分子对AI的能力仍然持怀疑态度。这项于7月10日发表的研究还分析了多个地下论坛,以了解网络犯罪社区如何看待AI的潜力。经验丰富的威胁行为者普遍表现出怀疑或谨慎的态度,他们的许多评论都淡化了LLMs目前的实用性。对AI辅助利用的热情通常来自于不太有经验的用户。
“尽管最近有传言称LLMs可以出人意料地很好地编写代码,但目前尚无明确证据表明真正的威胁行为者使用它们来可靠地发现和利用新的漏洞。”研究人员写道。虽然许多威胁行为者确实强调了LLMs在执行某些技术协助方面的有效性,比如生成模板代码和其他基本软件自动化任务,但他们并未广泛用于漏洞发现与利用。
不同AI模型的能力差异较大。Forescout的研究发现,开源模型在VR和ED方面最为不可靠,所有16个测试模型在所有任务中表现都不佳。这些模型可以在HuggingFace平台上找到,该平台为社区提供了数千个预训练的AI模型。研究人员指出:“总体而言,这一类别甚至对于基本的漏洞研究来说都不适合。”
地下模型是专门为暗网论坛和Telegram频道上的恶意用途进行微调的,其中包括从公开可用模型中开发的定制工具,如WormGPT和GhostGPT。虽然这些工具的表现优于开源模型,但它们也面临可用性问题,包括有限的访问权限、不稳定的行为、较差的输出格式以及受限的上下文长度。
来自主要科技供应商(如ChatGPT、Gemini和Copilot)的通用商业模型表现最好,尽管一些模型偶尔受到对齐保护措施的限制。即使在这一类别中,也只有三个模型成功产生了针对最困难测试案例的有效利用程序。
AI能力将不断增长。尽管有这些发现,但该研究观察到,在三个月的测试期间,生成式AI在VR和ED方面都显示出快速的进步。研究人员补充道:“这些结果表明,生成式AI尚未改变威胁行为者发现和利用漏洞的方式,但这种情况可能会很快改变。‘氛围黑客’的时代即将来临,防御者现在就应该开始准备了。”
Forescout表示,AI很可能会导致利用程序变得更加频繁,但不会更加复杂。因此,核心网络安全措施,如最小权限、网络分段和零信任,仍然是缓解此类攻击的重要手段。
(以上内容均由Ai生成)