谷歌推FACTS基准,AI准确率难破70%
快速阅读: 消息人士透露,谷歌FACTS团队与Kaggle联合发布FACTS基准套件,聚焦法律、金融、医疗等领域,评估AI事实准确性;主流模型综合准确率均未超70%,Gemini3Pro以68.8%居首。
日前,谷歌FACTS团队与数据科学平台Kaggle联合发布FACTS基准套件,旨在解决当前人工智能模型在事实准确性评估方面缺乏统一标准的问题。该基准聚焦法律、金融、医疗等对信息准确性要求较高的领域,提供了一套系统化评估框架。
FACTS将“事实性”划分为两类操作场景:一是“上下文事实性”,即基于给定数据生成准确回应;二是“世界知识事实性”,即从模型记忆或外部网络检索真实信息。测试显示,目前主流大模型在此基准下的整体准确率均未突破70%。其中,Gemini3Pro以68.8%的综合得分居首,Gemini2.5Pro和GPT-5分别以62.1%和61.8%紧随其后。
该基准包含四个维度的测试,分别模拟实际应用中的典型失败模式:参数基准(依赖内部知识)、搜索基准(调用工具)、多模态基准(处理图像)及上下文基准。谷歌已公开3513个测试样本,Kaggle则保留部分私有数据,防止模型在测试集上过拟合。值得注意的是,Gemini3Pro在搜索任务中表现突出,准确率达83.8%,但在纯参数任务中仅为76.4%,凸显检索增强生成(RAG)系统在提升准确性方面的必要性。
此外,多模态任务整体表现较弱,领先模型Gemini2.5Pro在此类测试中准确率仅46.9%。这表明当前多模态AI在无监督数据提取方面仍不成熟,企业在相关产品开发中需保持审慎。专家指出,FACTS基准的推出为行业提供了可量化的评估工具,有助于推动AI系统向更高可靠性发展。
(以上内容均由Ai生成)