与 Buttercup 一起拉开 AIxCC 总决赛的序幕

快速阅读: 据《比特之轨迹》称，DARPA人工智能网络安全挑战赛决赛开启，参赛队伍可开发定制AI模型并掌控基础设施。决赛资源大幅增加，挑战类型多样，评分机制优化。Trail of Bits团队的Buttercup系统正积极备战，力求在漏洞发现与修复领域取得突破。

DARPA的人工智能网络安全挑战赛决赛已经拉开帷幕。我们的网络推理系统（CRS）“蝴蝶结”（Buttercup）已经准备就绪，迎接这一挑战！

本届比赛相比以往更具野心。参赛团队现在可以构建定制化的人工智能模型，掌控自己的基础设施，并且同时应对多种类型的安全挑战。伴随着这些新挑战的到来，资源也变得更加充裕——每项挑战可以获得1000美元或更多的资金支持，而在半决赛时这一金额仅为100美元。

这些改变不仅仅是数字上的提升。它们让参赛者能够构建出更贴近实际安全工具的系统，而不仅仅停留在学术概念验证的层面。技术方法的灵活性增强意味着我们将看到更多创新的人工智能应用被运用到网络安全问题上，而在半决赛的限制条件下，这些都是难以实现的。

以下是比赛的主要变化及其重要意义：

**预算和时间扩展**
决赛中最显著的变化是为每个团队提供的资源大幅增加。在半决赛阶段，竞争系统在非常严格的限制下运行，这极大地限制了分析的深度和方法：

– 时间：每项挑战仅有4小时进行分析；
– AI预算：每项挑战仅能花费100美元用于商业AI API调用（例如ChatGPT、Claude）；
– 计算预算：固定分配的虚拟机，扩展选项有限。

而在决赛中，这些限制得到了显著改善：

– 时间：每项挑战的分析时间延长至8小时以上；
– AI预算：每轮比赛（涉及多项挑战）用于商业AI API调用的资金提高至10,000美元；
– 计算预算：每轮比赛（涉及多项挑战）用于Azure资源（服务器、虚拟机、GPU）的资金提高至20,000美元。

这些额外的资源让我们能够在更接近实际操作的时间范围内进行更深入、更彻底的分析。“蝴蝶结”（Buttercup）因此能够：

– 进行更深的动态分析，并对补丁进行更全面的测试；
– 增加对资源密集型任务（如模糊测试）的使用频率；
– 更广泛地采用各种商业AI模型来执行各类任务。

**多个竞赛轮次**
与半决赛单一评分轮不同，决赛包含三个无评分的展示轮，允许团队在最终评分轮之前迭代优化其CRS。这样的设置不仅提供了更多实验空间，也让系统更加健壮和实用。

– **展览轮1**（4月1日）：无评分，计算预算20K美元，AI预算10K美元；两项总挑战，最多两项并发，48小时挑战窗口，仅限Delta-scan挑战。
– **展览轮2**（5月6日）：无评分，计算预算20K美元，AI预算10K美元；15-30项总挑战，最多四项并发，8小时Delta-scan，24小时Full-scan挑战窗口。
– **展览轮3**（6月3日）：无评分，参数待定（提前30天公布）。
– **决赛轮**（6月24日）：评分，参数待定（提前30天公布）。

**多种挑战类型**
最重大的技术变革之一是引入了多种挑战类型。半决赛仅有一种挑战类型——基于真实开源软件的漏洞挖掘，但其Git历史记录少于100个提交，每个提交可能或可能不包含漏洞。而在决赛中，挑战依然基于真实开源软件，但新增了以下内容：

1. **Delta-scan挑战**
提供代码库及单个引入漏洞的diff。尽管代码库附带模糊测试套件作为起点，但diff为CRS提供了另一个识别和修复漏洞的关键切入点。

2. **Full-scan挑战**
提供一个已整合漏洞的完整代码库。没有diff可用作起点，CRS必须仅依赖模糊测试套件来分析整个代码库以发现漏洞。

3. **SARIF广播**
提供SARIF格式的静态分析警报，可能是真阳性或假阳性。CRS需要评估警报并判断其是否代表真实漏洞，随后选择是否提供补丁。

这种多样化至关重要，因为现实世界中的漏洞往往通过多种方式被发现——从代码审查、静态分析工具、模糊测试到运行时监控。能够处理所有这些输入的系统将在实际安全环境中展现更大价值。

**启用自定义AI模型开发**
或许是比赛中最重要的政策调整之一，DARPA现在允许参赛者开发和部署自己的AI/ML模型。在半决赛阶段，系统只能使用第三方模型（如Anthropic、OpenAI和Google）。如今，参赛者可以自由开发并部署他们自己的专业化模型，前提是这些模型获得比赛批准且具备可复制性。

不再局限于通用的商业模型，团队现在可以：

– 针对安全漏洞检测专门微调模型；
– 为漏洞分析的不同方面创建专业化模型；
– 为重复性任务开发轻量级、高效的模型。

然而，为了确保公平竞争，仍有一些规则约束：

– 自定义模型不得预先训练以记住开源软件中的历史漏洞信息，避免团队简单地教导模型已知问题，从而确保系统展现出真正的推理能力。

**灵活的计算资源**
另一个重要的技术变革是赋予参赛者对其基础设施的直接控制权。不再是半决赛中固定分配的计算资源，团队现在获得一个Azure订阅，唯一的限制是每轮的计算预算。这意味着团队可以根据每个挑战的具体需求灵活调整资源分配，例如：

– 将更强大的硬件分配给计算密集型模糊测试活动；
– 为运行自定义AI模型分配昂贵的GPU实例；
– 根据挑战复杂度动态扩展资源；
– 并行运行多个分析管道。

这种灵活性让团队在无评分轮中能够尝试不同的资源分配策略，找出最适合不同类型挑战的方法。

**评分算法变化**
AIxCC决赛延续了补丁比单独发现漏洞更有价值的核心评分原则，但增加了新的评分维度：

– 新增得分机会：SARIF分类（正确标注静态分析警报为真阳性或假阳性）、捆绑提交（将SARIF广播与漏洞和补丁关联）。
– 新的评分调整：早鸟奖金（早期提交获得更多分数奖励）、跨团队验证（补丁必须对所有团队发现的所有崩溃输入都有效才能得分）。

这些调整激励团队创建能够通过不同方法快速发现漏洞并生成真正解决漏洞根源而非过滤特定崩溃输入的补丁的系统。

**Buttercup接下来的计划**
“蝴蝶结”（Buttercup）2.0目前正处于展览轮的竞争中，我们的团队正利用反馈来完善我们的方法。我们的努力将在六月底的决赛中达到高潮，并在八月份的DEF CON 2025上公布最终结果。从本次竞赛中脱颖而出的系统将在自动化漏洞发现和修复方面迈出重要一步。敬请期待“蝴蝶结”（Buttercup）在AIxCC决赛中的进一步表现！

**挑战背景补充**
欲了解更多关于AIxCC挑战的背景信息，请参阅我们之前的报道：

– DARPA的人工智能网络挑战赛：我们来了！
– 我们对AIxCC竞赛格式的看法
– DARPA授予Trail of Bits 100万美元用于人工智能网络挑战赛
– Trail of Bits的Buttercup前往DARPA的AIxCC
– Trail of Bits晋级AIxCC决赛
– Trail of Bits的Buttercup前往DARPA的AIxCC

**免责声明**
本文引用的AIxCC规则、评分指南、基础设施和事件信息可能会发生变化。此帖并非权威文档，请以DARPA官方网站和官方文件为准。

(以上内容均由Ai生成)