与 Buttercup 一起拉开 AIxCC 总决赛的序幕

发布时间:2025年4月21日    来源:szf
与 Buttercup 一起拉开 AIxCC 总决赛的序幕

快速阅读: 据《比特之轨迹》称,DARPA人工智能网络安全挑战赛决赛开启,参赛队伍可开发定制AI模型并掌控基础设施。决赛资源大幅增加,挑战类型多样,评分机制优化。Trail of Bits团队的Buttercup系统正积极备战,力求在漏洞发现与修复领域取得突破。

DARPA的人工智能网络安全挑战赛决赛已经拉开帷幕。我们的网络推理系统(CRS)“蝴蝶结”(Buttercup)已经准备就绪,迎接这一挑战!

本届比赛相比以往更具野心。参赛团队现在可以构建定制化的人工智能模型,掌控自己的基础设施,并且同时应对多种类型的安全挑战。伴随着这些新挑战的到来,资源也变得更加充裕——每项挑战可以获得1000美元或更多的资金支持,而在半决赛时这一金额仅为100美元。

这些改变不仅仅是数字上的提升。它们让参赛者能够构建出更贴近实际安全工具的系统,而不仅仅停留在学术概念验证的层面。技术方法的灵活性增强意味着我们将看到更多创新的人工智能应用被运用到网络安全问题上,而在半决赛的限制条件下,这些都是难以实现的。

以下是比赛的主要变化及其重要意义:

**预算和时间扩展**
决赛中最显著的变化是为每个团队提供的资源大幅增加。在半决赛阶段,竞争系统在非常严格的限制下运行,这极大地限制了分析的深度和方法:

– 时间:每项挑战仅有4小时进行分析;
– AI预算:每项挑战仅能花费100美元用于商业AI API调用(例如ChatGPT、Claude);
– 计算预算:固定分配的虚拟机,扩展选项有限。

而在决赛中,这些限制得到了显著改善:

– 时间:每项挑战的分析时间延长至8小时以上;
– AI预算:每轮比赛(涉及多项挑战)用于商业AI API调用的资金提高至10,000美元;
– 计算预算:每轮比赛(涉及多项挑战)用于Azure资源(服务器、虚拟机、GPU)的资金提高至20,000美元。

这些额外的资源让我们能够在更接近实际操作的时间范围内进行更深入、更彻底的分析。“蝴蝶结”(Buttercup)因此能够:

– 进行更深的动态分析,并对补丁进行更全面的测试;
– 增加对资源密集型任务(如模糊测试)的使用频率;
– 更广泛地采用各种商业AI模型来执行各类任务。

**多个竞赛轮次**
与半决赛单一评分轮不同,决赛包含三个无评分的展示轮,允许团队在最终评分轮之前迭代优化其CRS。这样的设置不仅提供了更多实验空间,也让系统更加健壮和实用。

– **展览轮1**(4月1日):无评分,计算预算20K美元,AI预算10K美元;两项总挑战,最多两项并发,48小时挑战窗口,仅限Delta-scan挑战。
– **展览轮2**(5月6日):无评分,计算预算20K美元,AI预算10K美元;15-30项总挑战,最多四项并发,8小时Delta-scan,24小时Full-scan挑战窗口。
– **展览轮3**(6月3日):无评分,参数待定(提前30天公布)。
– **决赛轮**(6月24日):评分,参数待定(提前30天公布)。

**多种挑战类型**
最重大的技术变革之一是引入了多种挑战类型。半决赛仅有一种挑战类型——基于真实开源软件的漏洞挖掘,但其Git历史记录少于100个提交,每个提交可能或可能不包含漏洞。而在决赛中,挑战依然基于真实开源软件,但新增了以下内容:

1. **Delta-scan挑战**
提供代码库及单个引入漏洞的diff。尽管代码库附带模糊测试套件作为起点,但diff为CRS提供了另一个识别和修复漏洞的关键切入点。

2. **Full-scan挑战**
提供一个已整合漏洞的完整代码库。没有diff可用作起点,CRS必须仅依赖模糊测试套件来分析整个代码库以发现漏洞。

3. **SARIF广播**
提供SARIF格式的静态分析警报,可能是真阳性或假阳性。CRS需要评估警报并判断其是否代表真实漏洞,随后选择是否提供补丁。

这种多样化至关重要,因为现实世界中的漏洞往往通过多种方式被发现——从代码审查、静态分析工具、模糊测试到运行时监控。能够处理所有这些输入的系统将在实际安全环境中展现更大价值。

**启用自定义AI模型开发**
或许是比赛中最重要的政策调整之一,DARPA现在允许参赛者开发和部署自己的AI/ML模型。在半决赛阶段,系统只能使用第三方模型(如Anthropic、OpenAI和Google)。如今,参赛者可以自由开发并部署他们自己的专业化模型,前提是这些模型获得比赛批准且具备可复制性。

不再局限于通用的商业模型,团队现在可以:

– 针对安全漏洞检测专门微调模型;
– 为漏洞分析的不同方面创建专业化模型;
– 为重复性任务开发轻量级、高效的模型。

然而,为了确保公平竞争,仍有一些规则约束:

– 自定义模型不得预先训练以记住开源软件中的历史漏洞信息,避免团队简单地教导模型已知问题,从而确保系统展现出真正的推理能力。

**灵活的计算资源**
另一个重要的技术变革是赋予参赛者对其基础设施的直接控制权。不再是半决赛中固定分配的计算资源,团队现在获得一个Azure订阅,唯一的限制是每轮的计算预算。这意味着团队可以根据每个挑战的具体需求灵活调整资源分配,例如:

– 将更强大的硬件分配给计算密集型模糊测试活动;
– 为运行自定义AI模型分配昂贵的GPU实例;
– 根据挑战复杂度动态扩展资源;
– 并行运行多个分析管道。

这种灵活性让团队在无评分轮中能够尝试不同的资源分配策略,找出最适合不同类型挑战的方法。

**评分算法变化**
AIxCC决赛延续了补丁比单独发现漏洞更有价值的核心评分原则,但增加了新的评分维度:

– 新增得分机会:SARIF分类(正确标注静态分析警报为真阳性或假阳性)、捆绑提交(将SARIF广播与漏洞和补丁关联)。
– 新的评分调整:早鸟奖金(早期提交获得更多分数奖励)、跨团队验证(补丁必须对所有团队发现的所有崩溃输入都有效才能得分)。

这些调整激励团队创建能够通过不同方法快速发现漏洞并生成真正解决漏洞根源而非过滤特定崩溃输入的补丁的系统。

**Buttercup接下来的计划**
“蝴蝶结”(Buttercup)2.0目前正处于展览轮的竞争中,我们的团队正利用反馈来完善我们的方法。我们的努力将在六月底的决赛中达到高潮,并在八月份的DEF CON 2025上公布最终结果。从本次竞赛中脱颖而出的系统将在自动化漏洞发现和修复方面迈出重要一步。敬请期待“蝴蝶结”(Buttercup)在AIxCC决赛中的进一步表现!

**挑战背景补充**
欲了解更多关于AIxCC挑战的背景信息,请参阅我们之前的报道:

– DARPA的人工智能网络挑战赛:我们来了!
– 我们对AIxCC竞赛格式的看法
– DARPA授予Trail of Bits 100万美元用于人工智能网络挑战赛
– Trail of Bits的Buttercup前往DARPA的AIxCC
– Trail of Bits晋级AIxCC决赛
– Trail of Bits的Buttercup前往DARPA的AIxCC

**免责声明**
本文引用的AIxCC规则、评分指南、基础设施和事件信息可能会发生变化。此帖并非权威文档,请以DARPA官方网站和官方文件为准。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日