最后,具有极高投资回报率的 AI 代理的使用案例:窃取加密货币
快速阅读: 《The Register》消息,研究者开发AI代理A1,可自动发现并利用加密货币合约漏洞,成功率62.96%,可能带来巨大收益。论文警告攻击与防御成本不对称,呼吁加强安全措施。
使用人工智能模型来生成针对加密货币合约漏洞的漏洞利用,似乎是一个前景广阔的商业模式,尽管其合法性尚存疑问。英国伦敦大学学院(UCL)和澳大利亚悉尼大学(USYD)的研究人员设计了一个AI代理,能够自主发现并利用所谓的智能合约中的漏洞。
智能合约,这些曾被寄予厚望却始终未能完全兑现承诺的程序,是各种区块链上的自我执行程序,在满足特定条件时执行去中心化金融(DeFi)交易。像大多数足够复杂的程序一样,智能合约也存在漏洞,而利用这些漏洞窃取资金可能带来丰厚回报。据Web3安全平台供应商Immunefi [PDF]报告,去年加密货币行业因黑客攻击损失了近15亿美元。自2017年以来,黑客从DeFi平台盗取的资金总额已达到约117.4亿美元。
看起来,AI代理可以让获取这些资金变得更加容易。伦敦大学学院的信息安全副教授Arthur Gervais和悉尼大学计算机科学讲师Liyi Zhou开发了一种名为A1的AI代理系统,该系统利用来自OpenAI、Google、DeepSeek和阿里巴巴(通义千问)的各种AI模型,为Solidity智能合约开发漏洞利用。
他们在一篇题为《AI代理智能合约漏洞生成》的预印本论文中描述了这一系统。给定一组目标参数——包括区块链、合约地址和区块号——代理会选择工具并收集信息,以了解合约的行为和漏洞。然后,它会生成可编译的Solidity合约形式的漏洞利用,并在历史区块链状态上进行测试。
如果提示LLM查找代码中的漏洞,它们可以找到漏洞——但它们经常发明大量虚假缺陷,导致像curl这样的开源项目禁止提交AI生成的漏洞报告。因此,A1代理系统由一系列工具组成,使其漏洞利用更加可靠。这些包括:一个可以解析代理合约的源代码获取器,以及用于初始化参数、读取合约函数、清理代码、测试代码执行和计算收益的单独工具。
周在一封电子邮件中向《注册者》表示:“A1能完全生成漏洞利用。”“这很重要。这与其他LLM安全工具不同。输出不仅仅是报告,而是实际的可执行代码。A1非常接近人类黑客。”
在以太坊和币安智能链上的36个真实漏洞合约上进行测试,A1在VERITE基准测试中成功率为62.96%(27个中有17个)。据作者称,A1还发现了另外9个漏洞合约,其中5个是在最佳表现模型OpenAI的o3-pro训练截止后出现的。这一点很重要,因为它表明模型不仅仅是在重复训练期间公开的漏洞信息。
“在所有26个成功案例中,A1每个案例提取高达859万美元,总计933万美元,”论文中报告称。“通过六种大型语言模型(LLM)的432次实验,我们分析了迭代性能,显示平均边际收益分别为+9.7%、+3.7%、+5.1%和+2.8%(分别对应第2到第5次迭代),每次实验的成本在0.01至3.59美元之间。”
Perplexity效仿Google推出自己的浏览器Comet
高管们尽管投资增加,但仍对AI持负面态度,调查显示
佐治亚州法院驳回了之前依赖AI虚构的案例的裁决
学者们在论文中插入短语以误导AI审稿人
研究人员用各种LLM测试了A1:o3-pro(OpenAI o3-pro, o3-pro-2025-06-10)、o3(OpenAI o3, o3-2025-04-16)、Gemini Pro(Google Gemini 2.5 Pro Preview, gemini-2.5-pro)、Gemini Flash(Google Gemini 2.5 Flash Preview 05-20:thinking, gemini-2.5-flash-preview-04-17)、R1(DeepSeek R1-0528)和Qwen3 MoE(Qwen3-235B-A22B)。
OpenAI的o3-pro和o3成功率最高,分别为88.5%和73.1%,在模型与自身在代理循环中交互的五轮预算下。而且o3模型在保持高收益优化的同时实现了这些结果,从被利用的合约中获得了最大收益的69.2%和65.4%。
这种类型的漏洞也可以使用手动代码分析以及静态和动态模糊测试工具来识别。但作者指出,由于智能合约的数量和复杂性、人工安全专家的缓慢和稀缺性以及现有自动化工具的高误报率,手动方法有其局限性。
理论上,A1可以部署并从漏洞利用中赚取比运营成本更多的钱,假设执法部门没有介入。
“像A1这样的系统可以盈利,”周解释道。“举个具体的例子[来自论文],图5显示即使每1000次扫描中只有1次发现真正的漏洞,o3-pro仍然有利可图——只要该漏洞是在过去30天内引入的。”
可编程或“目的绑定”的货币即将到来,很可能作为央行数字货币的一个功能
阅读更多
周表示,时间窗口很重要,因为研究人员更有可能发现较旧的漏洞,用户可能已经修复了它们。
“找到这样的新漏洞并不容易,但这是可能的,尤其是在大规模的情况下。一旦发现几个有价值的漏洞,它们就可以轻松支付数千次扫描的成本。随着AI模型的持续改进,我们预计发现这些漏洞的可能性和覆盖的合约范围都会增加——随着时间的推移使系统更加有效。”
当被问及A1是否在现实中发现了任何零日漏洞时,周回答:“这篇论文中没有零日漏洞(目前还没有)。”
论文最后警告说,攻击方与防御方之间的奖励存在10倍不对称性——如果攻击者使用AI工具,而防御者使用传统工具。本质上,作者认为要么漏洞赏金需要接近漏洞利用的价值,要么防御扫描的成本必须降低一个数量级。
“发现一个漏洞大约需要1000次扫描,花费3000美元,”论文中写道。“一个价值10万美元的漏洞可以资助攻击者未来33000次扫描,而防御者的1万美元赏金只能覆盖3300次。这种再投资能力的数量级差异导致了扫描能力的分歧。”
入狱的风险可能会稍微改变计算。但鉴于美国当前的监管环境和估计的网络犯罪执法率为0.05%,这只是一个很小的风险调整。
周认为,攻击和防御之间的成本差距是一个严重的挑战。
“我的建议是,项目团队应该使用像A1这样的工具,持续监控自己的协议,而不是等待第三方发现问题,”他说。“对于项目团队和攻击者来说,实用价值是整个TVL(智能合约的总锁定价值),而白帽奖励通常被限制在10%。”
“这种不对称性使得在没有主动安全措施的情况下很难竞争。如果你依赖第三方团队,你基本上是在信任他们会在善意行事并遵守10%的赏金范围内——从安全角度来看,这是一个非常奇怪的假设。我通常在建模安全问题时假设所有参与者都是经济理性的。”
在他们7月8日发布的论文初稿中,研究人员表示计划将A1作为开源代码发布。但当被问及源代码可用性时,周却给出了不同的说法。
“我们已删除有关开源的说明(arXiv将于明天更新),因为我们还不确定这是否是正确的做法,考虑到A1如此强大以及上述担忧,”他说。
(以上内容均由Ai生成)