谷歌FACTS测试:顶尖AI模型准确率均未超70%
快速阅读: 12月11日消息,谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件,评估生成式AI在企业场景的事实性,主流模型综合准确率均未超70%,凸显多模态理解与RAG架构的重要性。
今日,谷歌FACTS团队与数据科学平台Kaggle联合发布FACTS基准测试套件,旨在系统评估生成式人工智能模型在企业应用场景中的事实性与真实性。该框架填补了现有评测体系重能力、轻一致性的空白,尤其关注模型对图像、图表等多模态信息的准确理解,为法律、金融、医疗等高精度要求行业提供标准化衡量工具。
初步测试显示,当前主流大模型距离可靠应用仍有显著差距。包括Gemini3Pro、GPT-5和Claude4.5Opus在内的所有参测模型,综合准确率均未突破70%。其中,Gemini3Pro以68.8%的总分暂居首位,但在多模态任务中表现最弱,准确率普遍低于50%,最优模型亦仅达46.9%。
FACTS测试涵盖四大维度:依赖内部知识的参数化问答、基于网络搜索的工具调用(RAG能力)、多模态内容解析及上下文严格遵循能力。数据显示,模型通过搜索获取信息的准确率(如Gemini3Pro达83.8%)明显高于依赖训练记忆(76.4%),凸显RAG架构在企业部署中的必要性。
专家指出,若产品依赖AI自动提取财务图表或发票数据而无人工复核,可能引入约三分之一的严重错误。未来,企业应依据具体场景参考对应子项评分:客户支持侧重合规性,研究助手优先搜索能力,图像分析则需保持高度审慎。该基准有望成为AI模型采购与选型的新标准。
(以上内容均由Ai生成)