谷歌推FACTS基准,AI准确率难破70%

发布时间:2025年12月11日    来源:szf
谷歌推FACTS基准,AI准确率难破70%

快速阅读: 消息人士透露,谷歌FACTS团队与Kaggle联合发布FACTS基准套件,聚焦法律、金融、医疗等领域,评估AI事实准确性;主流模型综合准确率均未超70%,Gemini3Pro以68.8%居首。

日前,谷歌FACTS团队与数据科学平台Kaggle联合发布FACTS基准套件,旨在解决当前人工智能模型在事实准确性评估方面缺乏统一标准的问题。该基准聚焦法律、金融、医疗等对信息准确性要求较高的领域,提供了一套系统化评估框架。

FACTS将“事实性”划分为两类操作场景:一是“上下文事实性”,即基于给定数据生成准确回应;二是“世界知识事实性”,即从模型记忆或外部网络检索真实信息。测试显示,目前主流大模型在此基准下的整体准确率均未突破70%。其中,Gemini3Pro以68.8%的综合得分居首,Gemini2.5Pro和GPT-5分别以62.1%和61.8%紧随其后。

该基准包含四个维度的测试,分别模拟实际应用中的典型失败模式:参数基准(依赖内部知识)、搜索基准(调用工具)、多模态基准(处理图像)及上下文基准。谷歌已公开3513个测试样本,Kaggle则保留部分私有数据,防止模型在测试集上过拟合。值得注意的是,Gemini3Pro在搜索任务中表现突出,准确率达83.8%,但在纯参数任务中仅为76.4%,凸显检索增强生成(RAG)系统在提升准确性方面的必要性。

此外,多模态任务整体表现较弱,领先模型Gemini2.5Pro在此类测试中准确率仅46.9%。这表明当前多模态AI在无监督数据提取方面仍不成熟,企业在相关产品开发中需保持审慎。专家指出,FACTS基准的推出为行业提供了可量化的评估工具,有助于推动AI系统向更高可靠性发展。

(以上内容均由Ai生成)

你可能还想读

科技巨头推平庸AI模型裁员求快

科技巨头推平庸AI模型裁员求快

快速阅读: 据Ziff Davis报道,OpenAI推出GPT-5.2模型以强化办公功能,并任命新首席营收官拓展企业业务;谷歌筹备Gemini智能眼镜,Meta内部出现AI战略分歧;特朗普签署行政令挑战州级AI法规;一名印度IT从业者利用A […]

发布时间:2025年12月13日
Okibo推自主AI喷涂机器人EG7+

Okibo推自主AI喷涂机器人EG7+

快速阅读: 据Okibo公司消息,其EG7+设备采用电池供电与专利AI算法,无需外部参照或专业技能即可自主导航建模,每小时作业约1000平方英尺,已投入实际应用,有望推动建筑自动化发展。 Okibo公司表示,EG7+设备采用电池供电,无需现 […]

发布时间:2025年12月13日
AI基建投资新选择:Nebius与Iren对比

AI基建投资新选择:Nebius与Iren对比

快速阅读: 据悉,英伟达CEO黄仁勋预测,到2030年全球企业将在AI基础设施和数据中心投入3至4万亿美元。鉴于其过往判断准确,该观点引发业界高度关注,相关投资涵盖芯片、服务器及能源配套等关键环节。 人工智能(AI)产业的快速发展带动了相关 […]

发布时间:2025年12月13日
麦当劳荷兰AI圣诞广告引众怒

麦当劳荷兰AI圣诞广告引众怒

快速阅读: 据荷兰麦当劳消息,其近日发布的AI生成圣诞广告因画面诡异、基调消极引发广泛批评,被指嘲讽节日氛围,现已全线下架并致歉,事件再度引发业界对AI内容传播边界的讨论。 荷兰麦当劳近日发布了一则由生成式人工智能制作的圣诞广告,因引发网络 […]

发布时间:2025年12月13日
韩国签署“硅基和平”宣言加入AI供应链联盟

韩国签署“硅基和平”宣言加入AI供应链联盟

快速阅读: 记者注意到,韩国、美国等七国近日在华盛顿签署《硅基和平》宣言,旨在构建人工智能与关键矿产领域的可信供应链,减少对单一来源的依赖,强化技术全栈合作,应对非市场行为,确保共同安全与发展。 韩国、美国等七国近日在华盛顿签署《硅基和平》 […]

发布时间:2025年12月13日
AI男友:算法读懂你的心

AI男友:算法读懂你的心

快速阅读: 12月13日消息,人工智能助手正从基础功能转向深度个性化互动,用户日益依赖其理解自身偏好并设定性格特征,引发专家对人机关系边界及隐私透明度的担忧。 人工智能助手的使用正从简单功能逐步演变为深度互动。用户最初可能仅将其用于兴趣爱好 […]

发布时间:2025年12月13日
Oracle与Broadcom重击AI股估值泡沫

Oracle与Broadcom重击AI股估值泡沫

快速阅读: 据多方确认,甲骨文与博通因AI资本开支激增及盈利前景不明导致股价重挫,引发市场对AI泡沫的担忧;尽管短期回调明显,主流机构仍维持对核心AI企业长期趋势的乐观判断。 近期,甲骨文公司与博通公司相继发布财报和业务更新,引发市场对人工 […]

发布时间:2025年12月13日
年轻求职者主动掌握AI技能应对招聘新要求

年轻求职者主动掌握AI技能应对招聘新要求

快速阅读: 12月13日消息,优秀求职者普遍熟练运用人工智能工具并关注其潜力,非计算机专业背景者亦具备扎实的AI应用能力,专家强调未来从业者需掌握提示工程并审慎评估AI输出,反映出AI正深度重塑人才素养要求。 在当前技术快速发展的背景下,优 […]

发布时间:2025年12月13日