OpenAI 最新的 o3 和 o4-mini 模型在编码和数学方面表现出色——但更经常出现幻觉

发布时间：2025年4月21日来源：szf

快速阅读: 《技术点》消息，OpenAI的新模型O3和O4-Mini在推理能力上取得进展，但“幻觉”率显著上升，引发关注。第三方评估显示，O3“幻觉”率达33%，O4-Mini达48%。专家担忧这对高精度需求行业构成风险，OpenAI正探索通过搜索功能提升准确性。

尖锐问题：OpenAI最新推出的人工智能模型O3和O4-Mini在编码、数学以及多模态推理方面树立了新的里程碑。然而，尽管取得了显著的进步，这些模型却因一项意外且令人不安的特性引发了广泛关注：它们比前一代模型更容易出现“幻觉”现象，即无中生有、编造信息的情况——这一现象与近年来定义AI进步的趋势背道而驰。

历史上，OpenAI的每一款新模型都逐步提高了事实准确性，并降低了“幻觉”发生率。然而，内部测试和第三方评估显示，被归类为“推理模型”的O3和O4-Mini比之前的推理模型（例如O1、O1-Mini和O3-Mini）及通用型的GPT-4O更倾向于制造虚假信息。根据TechCrunch的报道，在PersonQA基准测试中，O3有三分之一的答案属于“幻觉”，是O1和O3-Mini（分别得分为16%和14.8%）的两倍以上。而O4-Mini的表现更为糟糕，其“幻觉”率接近每两个回答就有一个是虚构的——达到48%。即便对于OpenAI的研究人员来说，这种倒退的原因依然不明。在技术文档中，该公司承认需要进一步研究以理解为何扩大的推理模型似乎加剧了“幻觉”问题。

非营利性AI实验室Transluce的研究员尼尔·乔杜里提出了一种假设：用于O系列模型的强化学习技术可能会放大此前后训练阶段已经缓解甚至消除的问题。第三方发现也支持这一理论。例如，Transluce记录了O3声称自己能在2021年的MacBook Pro上运行代码，并且将结果复制到答案中的例子——这完全是捏造的内容。

相关故事：
– OpenAI正在悄悄开发一款类似Twitter的社交网络，由ChatGPT提供动力
– AI幻觉的奇妙世界：当AI开始编造事物

Transluce的联合创始人莎拉·施维特曼警告称，较高的“幻觉”率可能限制O3在实际应用场景中的可用性。斯坦福大学兼职教授兼Workera首席执行官基安·卡坦福罗什告诉TechCrunch，虽然O3在编码工作流程中表现优异，但常常生成损坏的网站链接。这些“幻觉”对法律或金融等对准确性要求极高的行业和企业构成重大风险。一个编造事实的模型可能在法律合同或财务报告中引入错误，从而损害其可信度和实用性。

OpenAI承认了这一挑战，发言人尼科·费利克斯告诉TechCrunch，解决所有模型的“幻觉”问题是“一个持续的研究领域”，他们一直在努力提升模型的准确性和可靠性。减少“幻觉”的一个有希望的方向是整合网络搜索功能。配备了搜索功能的OpenAI GPT-4O在SimpleQA基准测试中达到了90%的准确性，表明实时检索有助于使AI的回答基于可验证的事实——当然前提是用户愿意与第三方搜索引擎共享查询内容。

与此同时，整个AI行业正朝着推理型模型的方向迈进，这类模型承诺能够在无需指数级增加数据和计算资源的情况下改善复杂任务的表现。然而，正如O3和O4-Mini的经验所展示的那样，这一新方向带来了自己的挑战，其中最突出的就是“幻觉”率上升的风险。

(以上内容均由Ai生成)