谷歌FACTS测试:顶尖AI模型准确率均未超70%

发布时间:2025年12月11日    来源:szf
谷歌FACTS测试:顶尖AI模型准确率均未超70%

快速阅读: 12月11日消息,谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件,评估生成式AI在企业场景的事实性,主流模型综合准确率均未超70%,凸显多模态理解与RAG架构的重要性。

今日,谷歌FACTS团队与数据科学平台Kaggle联合发布FACTS基准测试套件,旨在系统评估生成式人工智能模型在企业应用场景中的事实性与真实性。该框架填补了现有评测体系重能力、轻一致性的空白,尤其关注模型对图像、图表等多模态信息的准确理解,为法律、金融、医疗等高精度要求行业提供标准化衡量工具。

初步测试显示,当前主流大模型距离可靠应用仍有显著差距。包括Gemini3Pro、GPT-5和Claude4.5Opus在内的所有参测模型,综合准确率均未突破70%。其中,Gemini3Pro以68.8%的总分暂居首位,但在多模态任务中表现最弱,准确率普遍低于50%,最优模型亦仅达46.9%。

FACTS测试涵盖四大维度:依赖内部知识的参数化问答、基于网络搜索的工具调用(RAG能力)、多模态内容解析及上下文严格遵循能力。数据显示,模型通过搜索获取信息的准确率(如Gemini3Pro达83.8%)明显高于依赖训练记忆(76.4%),凸显RAG架构在企业部署中的必要性。

专家指出,若产品依赖AI自动提取财务图表或发票数据而无人工复核,可能引入约三分之一的严重错误。未来,企业应依据具体场景参考对应子项评分:客户支持侧重合规性,研究助手优先搜索能力,图像分析则需保持高度审慎。该基准有望成为AI模型采购与选型的新标准。

(以上内容均由Ai生成)

你可能还想读

2025年还能上车AI股票吗?答案出人意料

2025年还能上车AI股票吗?答案出人意料

快速阅读: 12月14日消息,亚马逊公司依托AWS云业务20%的营收增长及北美电商单季超千亿美元收入,持续强化在人工智能和数字零售领域的布局,该公司表示将加大云服务与自动化技术投入以巩固全球竞争力。 亚马逊公司(AMZN)近期表现值得关注。 […]

发布时间:2025年12月14日
韩国下月实施全球首部AI法案

韩国下月实施全球首部AI法案

快速阅读: 据有关方面消息,韩国国会通过《人工智能发展框架法》,将于2026年1月22日施行,设立国家AI委员会并要求系统透明安全;业界担忧初创企业合规准备不足,或被迫转向日本等海外市场。 韩国国会于11月27日召开全体会议,通过《人工智能 […]

发布时间:2025年12月14日
三星或因AI功能延迟旧机型系统更新

三星或因AI功能延迟旧机型系统更新

快速阅读: 据相关报道,三星或将推迟向现有机型推送One UI 8.5系统,以确保Galaxy S26系列首发搭载完整的Galaxy AI功能,维持新品市场吸引力并凸显代际差异,相关更新预计在新机全球发售后逐步展开。 除非Galaxy S2 […]

发布时间:2025年12月14日
微软任命Mustafa Suleyman为AI CEO

微软任命Mustafa Suleyman为AI CEO

快速阅读: 据业内人士透露,Meta今年6月以143亿美元投资Scale AI,被视作对CEO亚历山大·王的“人才并购”;谷歌同期斥资24亿美元收购Windsurf团队,凸显科技巨头正通过资本手段争夺AI顶尖人才。 今年6月,Meta以14 […]

发布时间:2025年12月14日
灵巧手困局:人形机器人“最后一厘米”难题

灵巧手困局:人形机器人“最后一厘米”难题

快速阅读: 截至报道时,灵巧手作为人形机器人关键部件,占整机成本约20%。全球仅有122家企业涉足该领域,普遍面临可靠性低、数据匮乏等瓶颈,行业正通过复合传动与多模态感知推动技术突破。 灵巧手作为人形机器人的关键末端执行器,其研发难度不亚于 […]

发布时间:2025年12月14日
英伟达最大机遇在人形机器人

英伟达最大机遇在人形机器人

快速阅读: 从现有信息来看,英伟达凭借AI芯片持续领跑市场,其新设的汽车与机器人业务板块正加速发展。受益于特斯拉、比亚迪等企业对人形机器人的布局,相关芯片需求激增,推动该板块营收同比增长32%。 英伟达公司凭借其人工智能芯片持续引领技术浪潮 […]

发布时间:2025年12月14日
GNOME将拒收含AI生成代码的Shell扩展

GNOME将拒收含AI生成代码的Shell扩展

快速阅读: 据GNOME消息,该组织更新扩展审查指南,明确拒收含大量冗余且明显由AI生成的GNOME Shell扩展,以缓解审核积压、遏制低质量代码传播,并强调开发者须理解并能解释所提交代码。 GNOME近日更新了其扩展审查指南,以应对人工 […]

发布时间:2025年12月14日
谷歌加大AI投入助力科研

谷歌加大AI投入助力科研

快速阅读: 据谷歌公司消息,谷歌近日宣布加强与日本高校在AI科研领域的合作,向东北大学痴呆症预防研究捐赠100万美元,并联合京都大学开发可自主提出科学假设的“AI共研系统”,以加速医学与科学发现进程。 谷歌公司近日宣布加强与日本高校在人工智 […]

发布时间:2025年12月14日