多模型协作提升智能合约审计效果
快速阅读: 据媒体报道,佐治亚理工学院团队提出LLMBugScanner框架,通过集成多个微调大语言模型协同检测以太坊智能合约漏洞,在108份真实合约测试中将准确率提升至约60%,显著优于单模型方案,为区块链安全审计提供新路径。
智能合约漏洞持续造成区块链系统资金损失,尽管相关检测工具和研究已发展多年。近日,佐治亚理工学院研究人员提出一种新方法:通过协调多个大语言模型协同工作,更有效地识别以太坊智能合约中的安全缺陷。
该团队开发了名为LLMBugScanner的框架,结合领域微调与模型集成投票机制,在不显著增加成本或复杂度的前提下提升漏洞检测准确率。研究指出,智能合约一旦部署便不可更改,微小逻辑错误也可能导致资金永久损失。而传统静态分析和符号执行工具在面对非标准合约时,常出现误报或漏检。
研究人员测试了多款开源代码大模型,发现单一模型表现不稳定。部分模型对整数溢出等常见问题识别较好,却容易遗漏访问控制或逻辑缺陷。同一模型在不同运行中结果不一致,且微调后虽在特定漏洞类型上性能提升,却可能削弱其他类别的检测能力。
为此,团队采用两阶段微调策略:先用775份带标签的Solidity合约提升模型通用理解能力,再以CVE标注子集强化对具体漏洞的识别。参数高效微调技术有效控制了计算开销。随后,系统引入五组独立微调模型进行集成分析,通过加权投票或优先级排序聚合结果。
在108份真实漏洞合约测试中,集成方法将前五项检测准确率提升至约60%,较单模型基线高出近19个百分点。尤其在整数溢出和代币贬值类问题上,集成模型成功补足了个体盲区。但访问控制、构造函数等少数类别仍难以有效识别,且约10%的输出存在“幻觉”——即生成无依据的漏洞报告。
研究人员认为,未来需结合符号验证或置信度评估,进一步提升大模型在智能合约审计中的可靠性。他们强调,将语言模型应用于安全任务,必须经过针对性适配、系统评估与有效协同。缺乏此类结构支撑时,模型即便在孤立测试中表现良好,也难以在真实环境中稳定发挥。
该框架具备可扩展性并兼顾成本效益,适合持续开展实验验证。未来研究方向包括基于学习的集成模型优选策略,以及对模型“幻觉”现象施加更严格的控制机制。目前,该成果已提供初步实证:在智能合约审计中,多个语言模型协同推理的效果显著优于单一模型独立作业,为提升区块链安全工具的可靠性开辟了新路径。
(以上内容均由Ai生成)
引用自:Help Net Security网站