谷歌Gemini 3 Pro事实准确率仅69%

发布时间:2025年12月13日    来源:szf
谷歌Gemini 3 Pro事实准确率仅69%

快速阅读: 据DeepMind消息,其近日发布FACTS基准测试套件,评估AI模型事实准确性,结果显示Gemini 3 Pro以69%准确率领先,但整体仍难满足专业领域要求,凸显高风险行业应用隐患。

近日,谷歌旗下DeepMind发布了FACTS基准测试套件,用于评估人工智能模型在生成事实性答案方面的可靠性。该测试涵盖四个维度:基于内部知识回答事实类问题、有效利用网络搜索、在长文档中准确提取信息,以及对图像内容的正确解读。

测试结果显示,表现最佳的谷歌Gemini 3 Pro模型准确率为69%,其余主流模型得分均明显低于这一水平。值得注意的是,在对事实准确性要求较高的专业领域,这一误差率仍显突出。例如,在新闻报道中,若记者稿件准确率仅为69%,通常难以满足职业标准。

此外,企业在推进AI应用时也需警惕事实性错误带来的风险。尽管当前模型在响应速度与语言流畅度方面进步显著,但在涉及专业知识、复杂推理或需严格依据原始材料的任务中,其可靠性仍远未达到人类预期。尤其在金融、医疗和法律等高风险行业,即便是微小的事实偏差,也可能引发严重后果。

本周有报道指出,某律师事务所因一名员工使用ChatGPT起草法律文件时引用了大量虚构判例,最终导致其被解雇。此类事件凸显了AI作为“法律事实来源”尚不成熟。

FACTS基准不仅揭示了当前AI系统的局限性,也为技术改进提供了明确方向。通过量化模型在不同场景下的失效模式,研发机构有望加速提升其事实一致性能力。但现阶段结论清晰:AI虽持续进步,平均每三次回答中仍有一次存在事实错误。

(以上内容均由Ai生成)

你可能还想读

AI投资热潮或成未来经济增长引擎

AI投资热潮或成未来经济增长引擎

快速阅读: 早前有消息称,沃顿商学院副教授林恩·吴指出,当前AI投资热潮虽具泡沫特征,但正推动基础设施完善与行业应用探索,为中长期生产力提升和经济结构优化奠定基础。 沃顿商学院运营、信息与决策系副教授林恩·吴指出,当前人工智能领域的投资热潮 […]

发布时间:2025年12月13日
AI引发批判性思维危机,高管预警人才断层

AI引发批判性思维危机,高管预警人才断层

快速阅读: 公开资料显示,一项覆盖全球1540名高管的调查显示,企业虽对AI持乐观态度,却面临战略人才断层危机,传统培养路径难以为继,关键思维能力缺失正威胁AI治理与创新。 一项覆盖全球1540名董事会成员及高管的最新调查显示,企业领导者对 […]

发布时间:2025年12月13日
Prime Video用AI生成《辐射》首季回顾竟成胡言乱语

Prime Video用AI生成《辐射》首季回顾竟成胡言乱语

快速阅读: 据亚马逊公司消息,其2024年11月在Prime Video推出的AI剧情回顾功能因配音机械、事实错误频出——如将《辐射》背景误标为1950年代——已从第二季页面下线,暴露生成式AI在内容准确性上的短板。 亚马逊公司于2024年 […]

发布时间:2025年12月13日
AI虚构内容让图书馆员应接不暇

AI虚构内容让图书馆员应接不暇

快速阅读: 据红十字国际委员会消息,该机构警告生成式人工智能在历史资料缺失时仍会编造看似合理的内容,可能误导用户、损害历史真相准确性,尤其在法律与人道行动领域风险突出,呼吁使用时须辅以人工核查和权威验证。 红十字国际委员会(ICRC)本月早 […]

发布时间:2025年12月13日
Rivian推AI汽车欲抢先特斯拉

Rivian推AI汽车欲抢先特斯拉

快速阅读: 记者从Rivian获悉,该公司近日发布的R2电动SUV将搭载自研AI芯片与嵌入式激光雷达,支持300万英里道路脱手驾驶,并以2500美元选装包提供高阶智驾功能,标志着其正式进军大众级自动驾驶市场。 2024年春季,美国电动汽车制 […]

发布时间:2025年12月13日
OpenAI推GPT-5.2力拼谷歌Gemini 3

OpenAI推GPT-5.2力拼谷歌Gemini 3

快速阅读: 早前有消息称,Sell The Trend CEO拉希德·韦比与Human Voice Media创始人鲍勃·哈钦斯表示,GPT-5.2在逻辑连贯性与多层上下文处理上显著提升,更贴近企业实际需求,虽未完全弥合技术承诺与应用落差, […]

发布时间:2025年12月13日
纽约家长呼吁州长签署AI安全法案

纽约家长呼吁州长签署AI安全法案

快速阅读: 据权威渠道透露,纽约州议会近日通过一项AI监管法案,仅约束年投入超数亿美元的大型企业,要求其披露重大安全事件,并禁止上线可能引发百人以上伤亡或灾难性损失的高风险模型,旨在平衡创新与公共安全,待州长签署生效。 纽约州议会近日通过一 […]

发布时间:2025年12月13日
谷歌推实时AI翻译,革新跨语言交流

谷歌推实时AI翻译,革新跨语言交流

快速阅读: 据媒体报道,谷歌推出基于Gemini大模型的实时连续翻译功能,支持70余种语言、超2000种互译组合,可过滤杂音并保留语义细节,显著提升海外旅行者在多语环境中的沟通效率。 谷歌近日推出基于Gemini大模型的实时连续翻译功能,用 […]

发布时间:2025年12月13日