谷歌Gemini 3 Pro在事实准确性测试中仅达69%

发布时间:2025年12月15日    来源:szf
谷歌Gemini 3 Pro在事实准确性测试中仅达69%

快速阅读: 据谷歌消息,其旗下DeepMind发布FACTS基准测试套件,评估AI模型事实准确性。结果显示Gemini 3 Pro以69%准确率领先,但该水平在新闻、法律等高风险领域仍显不足,凸显AI幻觉问题亟待解决。

近日,谷歌旗下DeepMind发布了FACTS基准测试套件,用于评估人工智能模型在生成事实性答案方面的可靠性。该测试涵盖四个维度:基于内部知识回答事实类问题、有效利用网络搜索、在长文档中准确提取信息,以及对图像内容的正确解读。

测试结果显示,表现最优的谷歌Gemini 3 Pro模型准确率为69%,其他主流模型得分均明显低于这一水平。值得注意的是,在对事实准确性要求较高的专业领域,这一误差率仍显突出。例如,在新闻行业,若记者稿件仅有69%的事实准确率,通常难以满足职业标准。

此外,企业在推进AI应用时也需警惕此类风险。尽管当前模型在响应速度与语言流畅度方面进步显著,但在涉及专业知识、复杂推理或需严格依据原始材料的任务中,其事实可靠性仍远未达到人类预期。尤其在金融、医疗和法律等高风险领域,微小的事实错误可能引发严重后果。

本周有报道披露,一家律师事务所因员工使用ChatGPT生成包含虚构判例的法律文件而将其解雇,凸显了AI幻觉问题在实务操作中的现实危害。FACTS基准不仅揭示了当前模型的局限,也为技术改进提供了明确方向。通过量化模型在不同场景下的失误类型,研发机构有望加速提升其准确性。

目前来看,尽管人工智能持续演进,但在约三分之一的情况下仍会输出错误信息,用户在关键决策中应保持审慎。

(以上内容均由Ai生成)

你可能还想读

马斯克称FSD v14.2.1支持特定场景下使用手机

马斯克称FSD v14.2.1支持特定场景下使用手机

快速阅读: 早前有消息称,特斯拉CEO马斯克表示,FSD v14.2.1版本可在特定交通环境下允许驾驶员短暂使用手机,测试显示系统对视线偏移容忍度提升,但专家强调现行法律禁止驾驶时操作手机,且驾驶员仍需承担事故责任。 12月12日,特斯拉首 […]

发布时间:2025年12月16日
马斯克称FSD将支持开车发短信

马斯克称FSD将支持开车发短信

快速阅读: 截至目前,特斯拉FSD v14.2.1版本在低中车流下未对驾驶员使用手机发出警报,仅在高车流高速路段触发提醒;专家强调,即便系统允许,驾驶时使用手机仍属违法且需担责。 12月12日,特斯拉首席执行官埃隆·马斯克表示,其“完全自动 […]

发布时间:2025年12月16日
特斯拉FSD新版本允许驾驶时看手机

特斯拉FSD新版本允许驾驶时看手机

快速阅读: 据媒体报道,特斯拉CEO马斯克称,FSD v14.2.1版本在特定交通条件下允许驾驶员短暂使用手机;测试显示,在低中流量路段未触发监控提醒,但法律与安全风险仍存。专家强调,驾驶时须遵守法规并保持专注。 12月12日,特斯拉首席执 […]

发布时间:2025年12月16日
特斯拉FSD新版本允许开车时看手机

特斯拉FSD新版本允许开车时看手机

快速阅读: 最新消息显示,特斯拉FSD v14.2.1版本在特定低密度交通环境下允许驾驶员短暂使用手机,但测试表明系统仅在高密度路段发出提醒;专家强调驾驶员仍须专注路况并承担法律责任,多地法规亦禁止驾驶时手持手机。 12月12日,特斯拉首席 […]

发布时间:2025年12月16日
韦氏词典年度词汇嘲讽AI垃圾内容

韦氏词典年度词汇嘲讽AI垃圾内容

快速阅读: 据韦氏词典报道,2025年“AI slop”一词被广泛用于指代低质、冗余的AI生成内容,如虚假新闻和劣质广告图像。该词带有戏谑贬义,强调盲目量产而非提升质量,区别于AI在编程等领域的有效应用。 2025年12月16日,随着人工智 […]

发布时间:2025年12月16日
Tiiny推口袋AI超算,离线运行大模型

Tiiny推口袋AI超算,离线运行大模型

快速阅读: 据Tiiny消息,该公司近日推出AI Pocket Lab微型计算机,可在无网、无独显条件下本地运行百亿至千亿参数大模型,整机功耗低于65瓦,获吉尼斯认证为最小同类设备之一。 美国初创企业Tiiny近日推出AI Pocket L […]

发布时间:2025年12月16日
TikTok推新工具识别AI生成内容

TikTok推新工具识别AI生成内容

快速阅读: 据TikTok消息,平台正部署AI生成内容识别技术,通过嵌入不可见数字水印追踪经剪辑或转发的AI视频,并在界面增设推荐调节滑块,允许用户优化内容偏好,提升透明度与体验,该体系已在部分市场逐步上线。 TikTok正加强技术手段,以 […]

发布时间:2025年12月16日
AI助研团队阻断病毒入侵

AI助研团队阻断病毒入侵

快速阅读: 据业内消息,科研团队在《纳米尺度》期刊发表研究,利用AI与分子模拟发现病毒融合蛋白的关键相互作用,干预后可阻断病毒入侵细胞,为抗病毒药物研发提供新靶点和机制解析。 一项研究于11月发表在《纳米尺度》(Nanoscale)期刊上, […]

发布时间:2025年12月16日