劳德研究所启动“弹弓”AI资助计划15个团队入选,重新定义AI评估标准

发布时间:2025年11月7日    来源:szf
劳德研究所启动“弹弓”AI资助计划15个团队入选,重新定义AI评估标准

快速阅读: 劳德研究所启动“弹弓”人工智能资助计划,首批15个项目聚焦AI评估体系,涵盖代码优化、商业决策等领域,旨在加速AI研究与应用创新。

周四,劳德研究所(Loud Institute)宣布启动首批“弹弓(Slingshot)”人工智能资助计划,旨在“推进人工智能的科学与实践”。该计划通过为研究人员提供传统学术机构难以匹配的资源——包括资金、计算能力以及产品和工程支持——以加速AI研究与落地创新。作为回报,受助者需产出可实际转化的成果,如初创公司、开源项目或其他形式的研究成果。

首批共有 15个项目入选 ,重点聚焦当前人工智能领域最具挑战性的议题之一—— AI评估体系 。其中多个项目已经在业界拥有知名度,如命令行编码基准测试工具 Terminal Bench ,以及长期关注通用人工智能(AGI)能力测评的 ARC-AGI 项目 最新 版本。

与此同时,多支团队正尝试以全新视角解决评估瓶颈。加州理工学院与德克萨斯大学奥斯汀分校合作开发的 Formula Code 项目,旨在评估AI代理在优化现有代码时的表现;哥伦比亚大学团队推出的 BizBench ,则面向“白领AI代理”构建综合测试标准,聚焦AI在商业和决策类任务中的真实表现。此外,还有部分项目探索强化学习与模型压缩的新方法,以建立更具普适性和可扩展性的评估框架。

值得关注的是, SWE-Bench 联合创始人 John Boda Yang 也加入了本轮计划,他将领导新项目 CodeClash 。该项目受SWE-Bench成功经验启发,计划通过动态、竞赛式机制评估AI代码能力。

Yang在接受TechCrunch采访时表示:“我认为持续利用第三方核心基准进行开放评估,是推动整个行业进步的关键。但我也担心,未来的评测体系若被个别公司垄断,将可能削弱研究的开放性与可比性。” 通过“弹弓”计划,劳德研究所正试图在学术与产业之间搭建新的桥梁,使前沿AI研究成果能够更快地转化为实际应用。这一举措被视为当前AI领域评估体系重塑的重要一步。

(以上内容均由Ai生成)

你可能还想读

Lloyd’s 2026年推出AI财务助手,革新移动银行体验

Lloyd’s 2026年推出AI财务助手,革新移动银行体验

快速阅读: 劳埃德银行计划2026年推出英国首款AI财务助手,通过移动应用帮助客户管理财务,已内部测试12,000次,目标覆盖2100万客户。 劳埃德银行集团宣布,计划于2026年初推出一款由人工智能驱动的财务助手,供客户使用。该行表示,这 […]

发布时间:2025年11月7日
AI先驱者困境:愿景还是数据先行?

AI先驱者困境:愿景还是数据先行?

快速阅读: 人工智能发展面临先有鸡还是先有蛋的难题:应从数据入手还是重塑业务流程?文章指出,仅凭数据无法实现显著回报,需先构想未来运营模式,再确定所需数据和技术,以实现真正变革。 人工智能的先有鸡还是先有蛋难题:愿景与数据,哪个更重要? 我 […]

发布时间:2025年11月7日
OpenAI CEO否认寻求政府支持,强调市场公平竞争

OpenAI CEO否认寻求政府支持,强调市场公平竞争

快速阅读: OpenAI CFO弗里亚称正寻求政府支持以助巨额贷款融资,降低融资成本。CEO阿尔特曼澄清公司不需政府担保,强调私营部门与政府合作重要性。 OpenAI首席执行官山姆·阿尔特曼似乎正在采取措施,以控制近期关于政府可能支持该公司 […]

发布时间:2025年11月7日
OpenAI CEO否认寻求政府担保,强调市场公平竞争

OpenAI CEO否认寻求政府担保,强调市场公平竞争

快速阅读: OpenAI CFO Sarah Friar提出公司寻求政府对其基础设施贷款的支持,引发关于政府是否应资助AI公司的争论。CEO Sam Altman澄清公司不需要政府担保,强调自身盈利能力和长期规划。 OpenAI首席执行官S […]

发布时间:2025年11月7日
企业需先治理数据再推进AI,避免业务受损

企业需先治理数据再推进AI,避免业务受损

快速阅读: AI技术快速发展,但数据质量问题引起关注。专家指出,缺乏良好数据治理可能导致AI项目失败,强调数据治理重要性,建议企业谨慎采用AI,重视数据质量和治理,以实现长期竞争优势。 近年来,人工智能(AI)技术迅速发展,逐渐渗透到商业企 […]

发布时间:2025年11月7日
研究称中国AI模型风险水平接近美国同行

研究称中国AI模型风险水平接近美国同行

快速阅读: Concordia AI研究显示,中国AI系统如DeepSeek的前沿风险接近美国水平,增加恶意利用风险。评估基于50个模型,关注公共安全和社会稳定的潜在威胁。 据一项研究显示,中国的AI系统正接近与美国同行类似的“前沿风险”水 […]

发布时间:2025年11月7日
研究揭示多款主流AI模型易受攻击

研究揭示多款主流AI模型易受攻击

快速阅读: 思科研究发现,多个知名AI模型存在严重安全漏洞,尤其对“多轮越狱攻击”敏感,可能导致数据泄露和内容操控,影响隐私和信息完整性。 据思科研究人员称,一系列领先的开放权重人工智能模型存在严重的安全漏洞。在一项新研究中,研究人员发现这 […]

发布时间:2025年11月7日
苹果百亿签约谷歌AI,新Siri春季上线提升用户体验

苹果百亿签约谷歌AI,新Siri春季上线提升用户体验

快速阅读: 苹果将每年支付10亿美元给谷歌,使用其Gemini人工智能模型开发新Siri,预计春季发布。此举标志着苹果心态转变,放弃自研心态,选择外部合作提升产品。 苹果与谷歌即将达成的交易透露了许多信息。尽管苹果和谷歌可能永远不会在必要的 […]

发布时间:2025年11月7日