劳德研究所启动“弹弓”AI资助计划15个团队入选,重新定义AI评估标准
快速阅读: 劳德研究所启动“弹弓”人工智能资助计划,首批15个项目聚焦AI评估体系,涵盖代码优化、商业决策等领域,旨在加速AI研究与应用创新。
周四,劳德研究所(Loud Institute)宣布启动首批“弹弓(Slingshot)”人工智能资助计划,旨在“推进人工智能的科学与实践”。该计划通过为研究人员提供传统学术机构难以匹配的资源——包括资金、计算能力以及产品和工程支持——以加速AI研究与落地创新。作为回报,受助者需产出可实际转化的成果,如初创公司、开源项目或其他形式的研究成果。
首批共有 15个项目入选 ,重点聚焦当前人工智能领域最具挑战性的议题之一—— AI评估体系 。其中多个项目已经在业界拥有知名度,如命令行编码基准测试工具 Terminal Bench ,以及长期关注通用人工智能(AGI)能力测评的 ARC-AGI 项目 最新 版本。
与此同时,多支团队正尝试以全新视角解决评估瓶颈。加州理工学院与德克萨斯大学奥斯汀分校合作开发的 Formula Code 项目,旨在评估AI代理在优化现有代码时的表现;哥伦比亚大学团队推出的 BizBench ,则面向“白领AI代理”构建综合测试标准,聚焦AI在商业和决策类任务中的真实表现。此外,还有部分项目探索强化学习与模型压缩的新方法,以建立更具普适性和可扩展性的评估框架。
值得关注的是, SWE-Bench 联合创始人 John Boda Yang 也加入了本轮计划,他将领导新项目 CodeClash 。该项目受SWE-Bench成功经验启发,计划通过动态、竞赛式机制评估AI代码能力。
Yang在接受TechCrunch采访时表示:“我认为持续利用第三方核心基准进行开放评估,是推动整个行业进步的关键。但我也担心,未来的评测体系若被个别公司垄断,将可能削弱研究的开放性与可比性。” 通过“弹弓”计划,劳德研究所正试图在学术与产业之间搭建新的桥梁,使前沿AI研究成果能够更快地转化为实际应用。这一举措被视为当前AI领域评估体系重塑的重要一步。
(以上内容均由Ai生成)