与 Buttercup 一起拉开 AIxCC 总决赛的序幕

发布时间:2025年4月21日    来源:szf
与 Buttercup 一起拉开 AIxCC 总决赛的序幕

快速阅读: 据《比特之轨迹》称,DARPA人工智能网络安全挑战赛决赛开启,参赛队伍可开发定制AI模型并掌控基础设施。决赛资源大幅增加,挑战类型多样,评分机制优化。Trail of Bits团队的Buttercup系统正积极备战,力求在漏洞发现与修复领域取得突破。

DARPA的人工智能网络安全挑战赛决赛已经拉开帷幕。我们的网络推理系统(CRS)“蝴蝶结”(Buttercup)已经准备就绪,迎接这一挑战!

本届比赛相比以往更具野心。参赛团队现在可以构建定制化的人工智能模型,掌控自己的基础设施,并且同时应对多种类型的安全挑战。伴随着这些新挑战的到来,资源也变得更加充裕——每项挑战可以获得1000美元或更多的资金支持,而在半决赛时这一金额仅为100美元。

这些改变不仅仅是数字上的提升。它们让参赛者能够构建出更贴近实际安全工具的系统,而不仅仅停留在学术概念验证的层面。技术方法的灵活性增强意味着我们将看到更多创新的人工智能应用被运用到网络安全问题上,而在半决赛的限制条件下,这些都是难以实现的。

以下是比赛的主要变化及其重要意义:

**预算和时间扩展**
决赛中最显著的变化是为每个团队提供的资源大幅增加。在半决赛阶段,竞争系统在非常严格的限制下运行,这极大地限制了分析的深度和方法:

– 时间:每项挑战仅有4小时进行分析;
– AI预算:每项挑战仅能花费100美元用于商业AI API调用(例如ChatGPT、Claude);
– 计算预算:固定分配的虚拟机,扩展选项有限。

而在决赛中,这些限制得到了显著改善:

– 时间:每项挑战的分析时间延长至8小时以上;
– AI预算:每轮比赛(涉及多项挑战)用于商业AI API调用的资金提高至10,000美元;
– 计算预算:每轮比赛(涉及多项挑战)用于Azure资源(服务器、虚拟机、GPU)的资金提高至20,000美元。

这些额外的资源让我们能够在更接近实际操作的时间范围内进行更深入、更彻底的分析。“蝴蝶结”(Buttercup)因此能够:

– 进行更深的动态分析,并对补丁进行更全面的测试;
– 增加对资源密集型任务(如模糊测试)的使用频率;
– 更广泛地采用各种商业AI模型来执行各类任务。

**多个竞赛轮次**
与半决赛单一评分轮不同,决赛包含三个无评分的展示轮,允许团队在最终评分轮之前迭代优化其CRS。这样的设置不仅提供了更多实验空间,也让系统更加健壮和实用。

– **展览轮1**(4月1日):无评分,计算预算20K美元,AI预算10K美元;两项总挑战,最多两项并发,48小时挑战窗口,仅限Delta-scan挑战。
– **展览轮2**(5月6日):无评分,计算预算20K美元,AI预算10K美元;15-30项总挑战,最多四项并发,8小时Delta-scan,24小时Full-scan挑战窗口。
– **展览轮3**(6月3日):无评分,参数待定(提前30天公布)。
– **决赛轮**(6月24日):评分,参数待定(提前30天公布)。

**多种挑战类型**
最重大的技术变革之一是引入了多种挑战类型。半决赛仅有一种挑战类型——基于真实开源软件的漏洞挖掘,但其Git历史记录少于100个提交,每个提交可能或可能不包含漏洞。而在决赛中,挑战依然基于真实开源软件,但新增了以下内容:

1. **Delta-scan挑战**
提供代码库及单个引入漏洞的diff。尽管代码库附带模糊测试套件作为起点,但diff为CRS提供了另一个识别和修复漏洞的关键切入点。

2. **Full-scan挑战**
提供一个已整合漏洞的完整代码库。没有diff可用作起点,CRS必须仅依赖模糊测试套件来分析整个代码库以发现漏洞。

3. **SARIF广播**
提供SARIF格式的静态分析警报,可能是真阳性或假阳性。CRS需要评估警报并判断其是否代表真实漏洞,随后选择是否提供补丁。

这种多样化至关重要,因为现实世界中的漏洞往往通过多种方式被发现——从代码审查、静态分析工具、模糊测试到运行时监控。能够处理所有这些输入的系统将在实际安全环境中展现更大价值。

**启用自定义AI模型开发**
或许是比赛中最重要的政策调整之一,DARPA现在允许参赛者开发和部署自己的AI/ML模型。在半决赛阶段,系统只能使用第三方模型(如Anthropic、OpenAI和Google)。如今,参赛者可以自由开发并部署他们自己的专业化模型,前提是这些模型获得比赛批准且具备可复制性。

不再局限于通用的商业模型,团队现在可以:

– 针对安全漏洞检测专门微调模型;
– 为漏洞分析的不同方面创建专业化模型;
– 为重复性任务开发轻量级、高效的模型。

然而,为了确保公平竞争,仍有一些规则约束:

– 自定义模型不得预先训练以记住开源软件中的历史漏洞信息,避免团队简单地教导模型已知问题,从而确保系统展现出真正的推理能力。

**灵活的计算资源**
另一个重要的技术变革是赋予参赛者对其基础设施的直接控制权。不再是半决赛中固定分配的计算资源,团队现在获得一个Azure订阅,唯一的限制是每轮的计算预算。这意味着团队可以根据每个挑战的具体需求灵活调整资源分配,例如:

– 将更强大的硬件分配给计算密集型模糊测试活动;
– 为运行自定义AI模型分配昂贵的GPU实例;
– 根据挑战复杂度动态扩展资源;
– 并行运行多个分析管道。

这种灵活性让团队在无评分轮中能够尝试不同的资源分配策略,找出最适合不同类型挑战的方法。

**评分算法变化**
AIxCC决赛延续了补丁比单独发现漏洞更有价值的核心评分原则,但增加了新的评分维度:

– 新增得分机会:SARIF分类(正确标注静态分析警报为真阳性或假阳性)、捆绑提交(将SARIF广播与漏洞和补丁关联)。
– 新的评分调整:早鸟奖金(早期提交获得更多分数奖励)、跨团队验证(补丁必须对所有团队发现的所有崩溃输入都有效才能得分)。

这些调整激励团队创建能够通过不同方法快速发现漏洞并生成真正解决漏洞根源而非过滤特定崩溃输入的补丁的系统。

**Buttercup接下来的计划**
“蝴蝶结”(Buttercup)2.0目前正处于展览轮的竞争中,我们的团队正利用反馈来完善我们的方法。我们的努力将在六月底的决赛中达到高潮,并在八月份的DEF CON 2025上公布最终结果。从本次竞赛中脱颖而出的系统将在自动化漏洞发现和修复方面迈出重要一步。敬请期待“蝴蝶结”(Buttercup)在AIxCC决赛中的进一步表现!

**挑战背景补充**
欲了解更多关于AIxCC挑战的背景信息,请参阅我们之前的报道:

– DARPA的人工智能网络挑战赛:我们来了!
– 我们对AIxCC竞赛格式的看法
– DARPA授予Trail of Bits 100万美元用于人工智能网络挑战赛
– Trail of Bits的Buttercup前往DARPA的AIxCC
– Trail of Bits晋级AIxCC决赛
– Trail of Bits的Buttercup前往DARPA的AIxCC

**免责声明**
本文引用的AIxCC规则、评分指南、基础设施和事件信息可能会发生变化。此帖并非权威文档,请以DARPA官方网站和官方文件为准。

(以上内容均由Ai生成)

你可能还想读

LEO卫星信号助力弱GPS区域精准导航

LEO卫星信号助力弱GPS区域精准导航

快速阅读: 据最新消息,美国俄亥俄州立大学研究证实,星链与一网等低轨卫星信号可有效补充GPS,在无GNSS环境下将定位误差从超1公里降至约27米,为关键基础设施提供高精度导航备份方案。 日前,美国俄亥俄州立大学研究团队证实,商业低轨(LEO […]

发布时间:2025年12月8日
星舰月球计划更新,SpaceX誓不放弃月球竞争

星舰月球计划更新,SpaceX誓不放弃月球竞争

快速阅读: FSD V14.2.1在标志识别方面改进明显,长期测试者Chuck Cook观察到学校区域行为改善,系统对时间规则认识提高,有助于减少动态环境中的误报。 FSD V14.2.1在标志识别方面也显示出改进。长期测试者Chuck C […]

发布时间:2025年11月30日
太空竞赛再起波澜,SpaceX澄清与NASA合作细节

太空竞赛再起波澜,SpaceX澄清与NASA合作细节

快速阅读: Riot Games计划举办《英雄联盟》人机对抗赛,Grok 5参赛将受限于人类水平,展现AI实时互动能力,有望成最具影响力赛事。 尽管尚未确定具体比赛,但从选手、队伍以及Riot Games的兴趣来看,这一概念有可能实现,成为 […]

发布时间:2025年11月26日
中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

快速阅读: 中国广电董事长宋起柱出席5G+工业互联网大会,提出强算注智、数智赋能、深耕特色三大举措,展示5G 700MHz应急基站,推动超高清产业与工业互联网发展。 IT之家 11 月 23 日消息,据人民邮电报报道,中国广电党委书记、董事 […]

发布时间:2025年11月23日
今日科创上海,“天问”绵延不辍

今日科创上海,“天问”绵延不辍

快速阅读: 11月11日,上海交大李政道研究所举办“天问·时代答卷”报告会,展示上海科技工作者在深地、深空、深海及AI领域的创新成果,推动国际科技创新中心建设。 “遂古之初,谁传道之?上下未形,何由考之?”两千多年前,屈原一篇《天问》洋洋洒 […]

发布时间:2025年11月11日
莱昂纳多与尤尼巴普合作推进实时太空情报系统

莱昂纳多与尤尼巴普合作推进实时太空情报系统

快速阅读: 莱昂纳多与尤尼巴普建立战略伙伴关系,共同开发先进太空情报系统。尤尼巴普提供边缘计算平台,莱昂纳多建设高分辨率地球观测卫星星座,双方合作提升系统性能,满足严苛任务需求。 德国柏林(SPX)2025年10月30日,莱昂纳多公司与尤尼 […]

发布时间:2025年10月30日
攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日