谷歌Gemini 3 Pro事实准确率仅69%
快速阅读: 据DeepMind消息,其近日发布FACTS基准测试套件,评估AI模型事实准确性,结果显示Gemini 3 Pro以69%准确率领先,但整体仍难满足专业领域要求,凸显高风险行业应用隐患。
近日,谷歌旗下DeepMind发布了FACTS基准测试套件,用于评估人工智能模型在生成事实性答案方面的可靠性。该测试涵盖四个维度:基于内部知识回答事实类问题、有效利用网络搜索、在长文档中准确提取信息,以及对图像内容的正确解读。
测试结果显示,表现最佳的谷歌Gemini 3 Pro模型准确率为69%,其余主流模型得分均明显低于这一水平。值得注意的是,在对事实准确性要求较高的专业领域,这一误差率仍显突出。例如,在新闻报道中,若记者稿件准确率仅为69%,通常难以满足职业标准。
此外,企业在推进AI应用时也需警惕事实性错误带来的风险。尽管当前模型在响应速度与语言流畅度方面进步显著,但在涉及专业知识、复杂推理或需严格依据原始材料的任务中,其可靠性仍远未达到人类预期。尤其在金融、医疗和法律等高风险行业,即便是微小的事实偏差,也可能引发严重后果。
本周有报道指出,某律师事务所因一名员工使用ChatGPT起草法律文件时引用了大量虚构判例,最终导致其被解雇。此类事件凸显了AI作为“法律事实来源”尚不成熟。
FACTS基准不仅揭示了当前AI系统的局限性,也为技术改进提供了明确方向。通过量化模型在不同场景下的失效模式,研发机构有望加速提升其事实一致性能力。但现阶段结论清晰:AI虽持续进步,平均每三次回答中仍有一次存在事实错误。
(以上内容均由Ai生成)