谷歌推FACTS基准,AI准确率难破70%

发布时间:2025年12月11日    来源:szf
谷歌推FACTS基准,AI准确率难破70%

快速阅读: 消息人士透露,谷歌FACTS团队与Kaggle联合发布FACTS基准套件,聚焦法律、金融、医疗等领域,评估AI事实准确性;主流模型综合准确率均未超70%,Gemini3Pro以68.8%居首。

日前,谷歌FACTS团队与数据科学平台Kaggle联合发布FACTS基准套件,旨在解决当前人工智能模型在事实准确性评估方面缺乏统一标准的问题。该基准聚焦法律、金融、医疗等对信息准确性要求较高的领域,提供了一套系统化评估框架。

FACTS将“事实性”划分为两类操作场景:一是“上下文事实性”,即基于给定数据生成准确回应;二是“世界知识事实性”,即从模型记忆或外部网络检索真实信息。测试显示,目前主流大模型在此基准下的整体准确率均未突破70%。其中,Gemini3Pro以68.8%的综合得分居首,Gemini2.5Pro和GPT-5分别以62.1%和61.8%紧随其后。

该基准包含四个维度的测试,分别模拟实际应用中的典型失败模式:参数基准(依赖内部知识)、搜索基准(调用工具)、多模态基准(处理图像)及上下文基准。谷歌已公开3513个测试样本,Kaggle则保留部分私有数据,防止模型在测试集上过拟合。值得注意的是,Gemini3Pro在搜索任务中表现突出,准确率达83.8%,但在纯参数任务中仅为76.4%,凸显检索增强生成(RAG)系统在提升准确性方面的必要性。

此外,多模态任务整体表现较弱,领先模型Gemini2.5Pro在此类测试中准确率仅46.9%。这表明当前多模态AI在无监督数据提取方面仍不成熟,企业在相关产品开发中需保持审慎。专家指出,FACTS基准的推出为行业提供了可量化的评估工具,有助于推动AI系统向更高可靠性发展。

(以上内容均由Ai生成)

你可能还想读

每25次数字身份验证就有1次涉诈

每25次数字身份验证就有1次涉诈

快速阅读: 据Veriff发布的《2026年身份欺诈报告》显示,2025年其全球平台4.18%的数字身份核验涉及欺诈,欧盟与英国地区净欺诈率飙升至9.77%,主要因机构新承担核验责任及AI驱动的冒用身份攻击激增,金融与电商领域风险尤为突出。 […]

发布时间:2025年12月13日
马斯克称FSD v14.2.1将支持特定场景下使用手机

马斯克称FSD v14.2.1将支持特定场景下使用手机

快速阅读: 12月13日消息,据特斯拉方面透露,CEO马斯克称FSD v14.2.1版本可在特定交通情境下短暂使用手机,但测试显示仅在低中流量路段未触发警报,且法律仍禁止驾驶时操作手机,驾驶员须全程保持注意力并承担事故责任。 12月12日, […]

发布时间:2025年12月13日
特斯拉Model S首次加入Robotaxi测试

特斯拉Model S首次加入Robotaxi测试

快速阅读: 据相关报道,特斯拉首次在加州使用Model S测试Robotaxi激光雷达设备,或意在推出高端出行服务;该车型虽销量较低,但凭借其豪华属性有望成为Robotaxi车队的高阶补充选项。 今日,特斯拉Model S车型在加利福尼亚州 […]

发布时间:2025年12月13日
特斯拉FSD新版本允许驾驶时看手机

特斯拉FSD新版本允许驾驶时看手机

快速阅读: 据官方通报,特斯拉CEO马斯克表示,FSD v14.2.1版本可在特定交通情境下允许驾驶员短暂使用手机,测试显示低中密度路段未触发警报,但专家强调该行为仍存在法律与安全风险,驾驶员须始终专注路况并承担事故主责。 12月12日,特 […]

发布时间:2025年12月13日
特斯拉FSD新版本允许开车时看手机

特斯拉FSD新版本允许开车时看手机

快速阅读: 记者从特斯拉获悉,FSD v14.2.1版本在低中交通密度下允许驾驶员短暂使用手机,但高速路段会触发提醒;尽管技术可行,现行法律仍禁止驾驶时操作手机,专家强调驾驶员须始终保持专注。 12月12日,特斯拉首席执行官埃隆·马斯克表示 […]

发布时间:2025年12月13日
博通重燃AI盈利担忧 美联储降息辩论拖累科技股

博通重燃AI盈利担忧 美联储降息辩论拖累科技股

快速阅读: 截至本周,美国股市周五回落,标普500与纳斯达克从历史高点回调,因市场担忧AI盈利前景,博通股价大跌拖累科技股,资金流出大型成长股板块。 美国股市周五回落,标普500指数与纳斯达克综合指数均从历史高点回调。市场对人工智能领域盈利 […]

发布时间:2025年12月13日
特朗普力推AI经济,选民却忧心忡忡

特朗普力推AI经济,选民却忧心忡忡

快速阅读: 据彭博电视台报道,特朗普力推AI发展战略以备战2026年选举,但地方民众担忧数据中心推高电价、冲击就业,导致多地项目受阻;专家警告,若忽视民生负担,技术领先恐难获公众支持。 2025年12月13日,美国前总统特朗普正为2026年 […]

发布时间:2025年12月13日
中国建成全球最大AI超算网络

中国建成全球最大AI超算网络

快速阅读: 据公开信息显示,中国正式启用全球规模最大的人工智能分布式计算中心“未来网络试验设施”,覆盖40城、跨度超2000公里,整体效率达98%,可大幅缩短AI模型训练周期,并支撑工业自动化、智能医疗等高技术应用,助力中国在全球AI超算竞 […]

发布时间:2025年12月13日