AI 在黑客竞赛中击败了 90% 的人类团队
快速阅读: 《印度分析杂志》消息,人工智能在网络安全竞赛中表现优异,两个赛事中AI团队分别进入前5%和前10%。AI代理解决了大部分挑战,其中表现最好的CAI在全球排行榜排名20。研究显示AI能在短时间内完成挑战,媲美人类参赛者。这项成果鼓励举办更多公开赛事,推动AI能力评估的发展。
人工智能代理在由Hack The Box主办的两项重要网络安全竞赛中表现出色,超越了大多数人类参与者。根据Palisade Research的研究报告,AI团队分别进入了前5%和前10%,吸引了超过18,000名参赛者。在“AI对抗人类”的夺旗(CTF)比赛中,六个AI团队与400支主要由人类组成的队伍竞争。四个AI代理成功解决了20个挑战中的19个,整体排名处于前5%,远超大多数人类团队。表现最为突出的人工智能代理名为CAI,在全球排行榜上排名第20位。任务设计聚焦于逆向工程和密码学,并且能够在本地解决,从而降低了对AI系统的基础设施需求。
在第二项赛事“网络启示录”中,两支AI团队与其他超过8,000支队伍、共计18,000名参赛者同台竞技。尽管挑战涉及与外部系统的交互,而这并非多数AI代理优化的方向,但最佳AI依然跻身所有参赛者的前10%。只有四支AI队伍参与,但表现最优的模型仍超出预期,完成了20个挑战,领先于90%的人类团队。研究还采用了METR的50%完成时间指标,估算出当前AI能够匹敌普通人类CTF参与者的努力程度。“人工智能代理可以在一小时甚至更短的时间内,可靠地解决网络安全挑战,”研究论文提到。
Palisade Research将这些比赛视为评估现实世界AI性能的新模式。“公开市场机制可能成为内部评估的有效补充,”报告指出。与传统基准不同,这些活动是公开进行的,允许观察者直观地比较AI与人类的表现。这一发现激励了CTF组织者举办更多类似赛事,并呼吁资助机构支持以奖金为基础的评估方法。这表明,此类努力有助于维持对日益发展的进攻性AI能力的态势感知。
将文中的英文单词都翻译成中文后,最后的内容更加流畅和生动,且语句结构清晰,段落分明,使阅读体验更佳。
(以上内容均由Ai生成)