谷歌Gemini 3 Pro在事实准确性测试中仅达69%

发布时间：2025年12月15日来源：szf

快速阅读: 据谷歌消息，其旗下DeepMind发布FACTS基准测试套件，评估AI模型事实准确性。结果显示Gemini 3 Pro以69%准确率领先，但该水平在新闻、法律等高风险领域仍显不足，凸显AI幻觉问题亟待解决。

近日，谷歌旗下DeepMind发布了FACTS基准测试套件，用于评估人工智能模型在生成事实性答案方面的可靠性。该测试涵盖四个维度：基于内部知识回答事实类问题、有效利用网络搜索、在长文档中准确提取信息，以及对图像内容的正确解读。

测试结果显示，表现最优的谷歌Gemini 3 Pro模型准确率为69%，其他主流模型得分均明显低于这一水平。值得注意的是，在对事实准确性要求较高的专业领域，这一误差率仍显突出。例如，在新闻行业，若记者稿件仅有69%的事实准确率，通常难以满足职业标准。

此外，企业在推进AI应用时也需警惕此类风险。尽管当前模型在响应速度与语言流畅度方面进步显著，但在涉及专业知识、复杂推理或需严格依据原始材料的任务中，其事实可靠性仍远未达到人类预期。尤其在金融、医疗和法律等高风险领域，微小的事实错误可能引发严重后果。

本周有报道披露，一家律师事务所因员工使用ChatGPT生成包含虚构判例的法律文件而将其解雇，凸显了AI幻觉问题在实务操作中的现实危害。FACTS基准不仅揭示了当前模型的局限，也为技术改进提供了明确方向。通过量化模型在不同场景下的失误类型，研发机构有望加速提升其准确性。

目前来看，尽管人工智能持续演进，但在约三分之一的情况下仍会输出错误信息，用户在关键决策中应保持审慎。

(以上内容均由Ai生成)

你可能还想读