多模型协作提升智能合约审计效果

发布时间：2025年12月19日来源：szf

快速阅读: 据媒体报道，佐治亚理工学院团队提出LLMBugScanner框架，通过集成多个微调大语言模型协同检测以太坊智能合约漏洞，在108份真实合约测试中将准确率提升至约60%，显著优于单模型方案，为区块链安全审计提供新路径。

智能合约漏洞持续造成区块链系统资金损失，尽管相关检测工具和研究已发展多年。近日，佐治亚理工学院研究人员提出一种新方法：通过协调多个大语言模型协同工作，更有效地识别以太坊智能合约中的安全缺陷。

该团队开发了名为LLMBugScanner的框架，结合领域微调与模型集成投票机制，在不显著增加成本或复杂度的前提下提升漏洞检测准确率。研究指出，智能合约一旦部署便不可更改，微小逻辑错误也可能导致资金永久损失。而传统静态分析和符号执行工具在面对非标准合约时，常出现误报或漏检。

研究人员测试了多款开源代码大模型，发现单一模型表现不稳定。部分模型对整数溢出等常见问题识别较好，却容易遗漏访问控制或逻辑缺陷。同一模型在不同运行中结果不一致，且微调后虽在特定漏洞类型上性能提升，却可能削弱其他类别的检测能力。

为此，团队采用两阶段微调策略：先用775份带标签的Solidity合约提升模型通用理解能力，再以CVE标注子集强化对具体漏洞的识别。参数高效微调技术有效控制了计算开销。随后，系统引入五组独立微调模型进行集成分析，通过加权投票或优先级排序聚合结果。

在108份真实漏洞合约测试中，集成方法将前五项检测准确率提升至约60%，较单模型基线高出近19个百分点。尤其在整数溢出和代币贬值类问题上，集成模型成功补足了个体盲区。但访问控制、构造函数等少数类别仍难以有效识别，且约10%的输出存在“幻觉”——即生成无依据的漏洞报告。

研究人员认为，未来需结合符号验证或置信度评估，进一步提升大模型在智能合约审计中的可靠性。他们强调，将语言模型应用于安全任务，必须经过针对性适配、系统评估与有效协同。缺乏此类结构支撑时，模型即便在孤立测试中表现良好，也难以在真实环境中稳定发挥。

该框架具备可扩展性并兼顾成本效益，适合持续开展实验验证。未来研究方向包括基于学习的集成模型优选策略，以及对模型“幻觉”现象施加更严格的控制机制。目前，该成果已提供初步实证：在智能合约审计中，多个语言模型协同推理的效果显著优于单一模型独立作业，为提升区块链安全工具的可靠性开辟了新路径。

(以上内容均由Ai生成)

引用自：Help Net Security网站

你可能还想读