AI突破引发超级智能竞赛
快速阅读: 2022年11月以来,OpenAI等公司推出多款生成式AI模型,如GPT-5、Gemini 2.5等,部分模型在国际数学奥林匹克竞赛中获奖,但在编码等领域仍面临挑战。
自2022年11月OpenAI推出GPT-3.5以来,技术乐观主义者认为人工智能距离超级智能比以往任何时候都更近。今年初以来,一系列生成式人工智能基础模型相继问世,从1月份的DeepSeek-R1到本月早些时候的GPT-5。OpenAI联合创始人萨姆·阿尔特曼在其6月博客中表示,我们正接近构建“数字超级智能”。然而,并非所有人都持相同看法。新泽西理工学院数据科学研究所所长大卫·贝德最近指出,“真正定义的超级智能是指在几乎所有认知领域超越人类表现的系统。我们离这个门槛还很远。”
今年7月,OpenAI和谷歌DeepMind的Gemini DeepThink实验模式在国际数学奥林匹克竞赛中取得金牌,得分为42分中的35分。业内人士普遍认为这是一个令人印象深刻的成就。心理学家加里·马库斯在其帖子中称其“非常令人印象深刻”,并补充说,“国际数学奥林匹克金牌是许多成功数学家和科学家一生中都会在简历上突出的成绩。”不过,尚不清楚这将如何助力未来的数学研究。
今年也是编码代理的丰收之年。从OpenAI到Gemini,各大平台都在努力提升其编码性能。尽管Claude是目前最受欢迎的编码模型之一,但其他平台也在迎头赶上。5月,谷歌推出了编码代理Jules。7月,谷歌支付24亿美元的许可费给编码平台Windsurf,并聘请了该公司创始人瓦伦·莫汉和其他关键人员。OpenAI于5月推出了Codex,并表示其最新模型GPT-5在编码方面表现出色。这使得这些平台与Cursor和Lovable等初创企业直接竞争。
今年1月,中国开源模型DeepSeek-R1的发布引起了轰动,被誉为“DeepSeek时刻”,标志着大型语言模型训练的重大技术突破。与西方同行不同,DeepSeek采用强化学习技术,通过试错训练系统做出决策,最优结果将得到奖励。这不仅大幅降低了成本,同时在推理能力方面与OpenAI等公司持平。
3月,搜索引擎巨头谷歌推出了最先进的Gemini 2.5 Pro实验模型,这是一种具备强大推理和编码能力的模型,在编程、数学和科学领域排名靠前。8月1日,谷歌向Ultra订阅用户开放了Gemini 2.5 Deep Think。根据公司博客,Deep Think能够进行长时间思考并同时生成多个并行思维流,类似于人类大脑处理复杂任务的方式。
2月,Anthropic推出了其最智能的模型Claude 3.7 Sonnet,这是该公司首款混合推理模型。该公司表示,这款模型既适用于即时响应,也适用于深度思考,“就像人类用一个大脑来快速回应和深入反思一样。”用户还可以控制模型的“深度思考”时间。此外,Anthropic优化了模型,使其更适合企业实际应用,而不仅仅是数学和计算机科学竞赛问题。5月,Anthropic又推出了Claude 4 Sonnet,相比3.7版本在扩展推理能力和准确执行指令等方面有了显著提升。
2月,埃隆·马斯克的人工智能公司xAI推出了推理模型Grok 3。7月,xAI又推出了升级版Grok 4。
7月,该公司利用20万个GPU集群训练最新模型,以运行强化学习。该公司在一篇博文中表示:“这得益于整个技术栈的创新,包括新的基础设施和算法工作,使我们的训练计算效率提高了6倍。” 公司还推出了Grok Heavy,该模型可以通过并行测试时间计算来考虑多个假设。
OpenAI在4月推出了推理模型O3和O4-mini,这些模型经过训练,可以在回应之前进行更长时间的思考。这是首次这些模型可以使用GPT的所有工具,如搜索和图像生成。随后,在本月早些时候,OpenAI推出了备受期待的GPT-5。该公司表示,GPT-5是一个统一的系统,效率更高,能够进行更深入的推理,并且可以根据对话的性质选择不同的模型。该模型旨在处理现实世界的任务,减少了幻觉现象,更好地遵循指令,并在编程、写作和健康领域表现出色。
尽管2025年是科技公司在先进模型方面取得突破的一年,但有些公司遭遇了重大挫折,特别是Meta的开源模型Llama。Meta在Llama取得显著成功后,最新的发布遇到了问题。据《华尔街日报》5月报道,Meta推迟了Llama 4的发布,因为公司难以提升Llama 4模型Behemoth的能力。该模型原定于4月发布,现在据说将推迟到秋季或更晚。《纽约时报》7月的报道称,Meta可能放弃Llama,转而开发由Alexandr Wang领导的超智能团队负责的闭源模型。
(以上内容均由Ai生成)