谷歌FACTS测试:顶尖AI模型准确率均未超70%

发布时间:2025年12月11日    来源:szf
谷歌FACTS测试:顶尖AI模型准确率均未超70%

快速阅读: 12月11日消息,谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件,评估生成式AI在企业场景的事实性,主流模型综合准确率均未超70%,凸显多模态理解与RAG架构的重要性。

今日,谷歌FACTS团队与数据科学平台Kaggle联合发布FACTS基准测试套件,旨在系统评估生成式人工智能模型在企业应用场景中的事实性与真实性。该框架填补了现有评测体系重能力、轻一致性的空白,尤其关注模型对图像、图表等多模态信息的准确理解,为法律、金融、医疗等高精度要求行业提供标准化衡量工具。

初步测试显示,当前主流大模型距离可靠应用仍有显著差距。包括Gemini3Pro、GPT-5和Claude4.5Opus在内的所有参测模型,综合准确率均未突破70%。其中,Gemini3Pro以68.8%的总分暂居首位,但在多模态任务中表现最弱,准确率普遍低于50%,最优模型亦仅达46.9%。

FACTS测试涵盖四大维度:依赖内部知识的参数化问答、基于网络搜索的工具调用(RAG能力)、多模态内容解析及上下文严格遵循能力。数据显示,模型通过搜索获取信息的准确率(如Gemini3Pro达83.8%)明显高于依赖训练记忆(76.4%),凸显RAG架构在企业部署中的必要性。

专家指出,若产品依赖AI自动提取财务图表或发票数据而无人工复核,可能引入约三分之一的严重错误。未来,企业应依据具体场景参考对应子项评分:客户支持侧重合规性,研究助手优先搜索能力,图像分析则需保持高度审慎。该基准有望成为AI模型采购与选型的新标准。

(以上内容均由Ai生成)

你可能还想读

美股收跌 投资者担忧AI泡沫与通胀

美股收跌 投资者担忧AI泡沫与通胀

快速阅读: 据行业统计,美国股市周五普遍下跌,科技股领跌,因市场担忧AI投资过热及美债收益率上升;标普500和纳指跌幅均超1%,博通、甲骨文等AI概念股重挫,费城半导体指数创10月以来最大单日跌幅。 周五,美国股市普遍下跌,科技股领跌。标普 […]

发布时间:2025年12月14日
马斯克称FSD v14.2.1将支持特定场景下使用手机

马斯克称FSD v14.2.1将支持特定场景下使用手机

快速阅读: 据悉,据特斯拉方面消息,CEO马斯克称FSD v14.2.1版本可在特定交通环境下允许驾驶员短暂使用手机,测试显示系统仅在高密度路况下发出提醒,但现行法律仍禁止驾驶时操作手机,专家强调驾驶员须始终专注路况并承担法律责任。 12月 […]

发布时间:2025年12月14日
马斯克称FSD将支持开车发短信

马斯克称FSD将支持开车发短信

快速阅读: 公开资料显示,特斯拉FSD v14.2.1版本在低中交通密度下允许驾驶员短暂使用手机而不触发监控警报,但测试者强调该行为违法且危险,现行法规禁止驾驶时操作手机,事故责任仍由驾驶员承担。 12月12日,特斯拉首席执行官埃隆·马斯克 […]

发布时间:2025年12月14日
特斯拉FSD新版本允许开车发短信

特斯拉FSD新版本允许开车发短信

快速阅读: 据了解,特斯拉FSD v14.2.1版本在低中交通密度下允许驾驶员短暂使用手机且未触发警报,仅在高速场景发出提醒;测试者强调该功能仍属技术验证,法律禁止驾驶时操作手机,事故责任由驾驶员承担。 12月12日,特斯拉首席执行官埃隆· […]

发布时间:2025年12月14日
特斯拉FSD新版本被曝允许开车发短信

特斯拉FSD新版本被曝允许开车发短信

快速阅读: 截至目前,据特斯拉方面消息,CEO马斯克称FSD v14.2.1版本可在特定交通环境下允许驾驶员短暂使用手机,但测试显示仅在低中流量路段未触发警报,且法律与安全责任仍由驾驶员承担。 12月12日,特斯拉首席执行官埃隆·马斯克表示 […]

发布时间:2025年12月14日
拉脱维亚开发者推出八款独立AI工具

拉脱维亚开发者推出八款独立AI工具

快速阅读: 据业内消息,拉脱维亚本土开发者近期推出多款AI工具,涵盖设计、文档生成、移动开发及法律追踪等领域,其中SnapGrid、Video2Docs和Natively等应用已投入实用,另有一款面向围绝经期女性的健康管理应用Anna Ap […]

发布时间:2025年12月14日
甲骨文股价暴跌揭示AI热潮遭遇物理与债务双重瓶颈

甲骨文股价暴跌揭示AI热潮遭遇物理与债务双重瓶颈

快速阅读: 截至本周,2026年5月19日至20日财富职场创新峰会将在亚特兰大举行,聚焦人工智能与人文因素融合以重塑未来工作模式,汇聚全球行业领袖共商职场生态革新。 2026年5月19日至20日,财富职场创新峰会将在亚特兰大举行。本次峰会聚 […]

发布时间:2025年12月14日
印度提出AI内容版权方案却遭各方不满

印度提出AI内容版权方案却遭各方不满

快速阅读: 据印度工业和内部贸易促进部消息,该部发布白皮书提议设立AI训练版权报酬集体管理组织,要求商业化AI企业支付追溯性版权费,旨在规范数据使用并提升模型可靠性,但部分初创企业担忧其操作复杂或抑制本土创新。 近日,印度政府就人工智能(A […]

发布时间:2025年12月14日