AI

AI 的“推理”之谜:OpenAI 如何用代码和数据重塑人类智能

发布时间:2025年8月4日    来源:szf
AI 的“推理”之谜:OpenAI 如何用代码和数据重塑人类智能

快速阅读: 2022年,OpenAI的MathGen团队专注数学推理研究,助力AI智能体发展。2023年,OpenAI推出o1模型,结合强化学习与LLM,大幅提升数学解题能力,引发硅谷人才争夺。

2022年,当 ChatGPT 席卷全球时,OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今,这项工作已成为 OpenAI 打造 AI 智能体(Agent)的核心技术,并引发了硅谷的人才争夺战。本文将深入解析 OpenAI 的 AI 智能体之路,探寻其如何通过强化学习和计算突破,从一个低调的研究项目走向通用智能体的宏伟蓝图。

2022年,在 ChatGPT 凭借其强大的语言能力迅速走红、成为史上增长最快的产品之一时,研究员亨特·莱特曼(Hunter Lightman)正专注于一项截然不同的任务:领导一个名为 MathGen 的团队,教 OpenAI 的模型解决高中数学竞赛难题。

当时,OpenAI 的模型在数学推理方面表现欠佳。但正是这个被视为基础研究的项目,为公司后来的突破性进展奠定了基石。如今,这个团队的成果已成为业界领先的 AI 推理模型,即 AI 智能体背后的核心技术。

OpenAI 首席执行官山姆·奥特曼(Sam Altman)在2023年公司首届开发者大会上曾描绘了一个宏伟愿景:“最终,你只需向计算机提出需求,它就会为你完成所有任务。”他所指的正是 AI 智能体,一个能够像人类一样在计算机上执行复杂任务的 AI 系统。

强化学习的复兴:从 AlphaGo 到 o1模型 OpenAI 的 AI 智能体之路,与一种名为强化学习(RL)的训练技术紧密相连。虽然 RL 早在2016年谷歌 DeepMind 的 AlphaGo 击败世界围棋冠军时就已名声大噪,但 OpenAI 的突破在于将其与大语言模型(LLM)相结合。

OpenAI 早期的 GPT 系列模型,虽然擅长文本处理,但在基础数学方面却举步维艰。直到2023年,OpenAI 团队取得了一项代号为“Strawberry”的突破。该技术结合了 LLM、强化学习以及“测试时间计算”技术,后者为模型提供了额外的时间和计算能力来规划、验证并解决问题。这一突破使得 OpenAI 能够引入“思路链”(CoT)方法,显著提升了模型在解决未知数学问题上的表现。

正如研究员埃尔·基什基(El Kishky)所描述:“我看到模型开始推理了。它会注意到错误,然后回溯,也会感到沮丧。感觉就像读懂了一个人的想法。” 这一技术组合最终促成了 OpenAI 推理模型 o1的诞生。o1的规划与事实核查能力,为打造强大的 AI 智能体提供了坚实基础。莱特曼表示,o1的诞生“解决了困扰我好几年的一个难题”,是他研究生涯中“最激动人心的时刻之一”。

o1的价值与人才争夺战 2024年秋季,OpenAI 发布 o1模型,震惊了世界。这一突破证明,通过新的训练方法可以继续提升模型的性能。不到一年时间,o1背后的21位研究人员就成了硅谷最抢手的人才。

马克·扎克伯格(Mark Zuckerberg)以超过1亿美元的薪酬待遇,成功招募了五名 o1研究员加入 Meta 新成立的 超级 智能部门,其中包括被任命为该实验室首席科学家的赵胜佳。这一举动,凸显了 AI 推理模型在当前技术竞赛中的战略地位。

AI 智能体的未来:从编码到主观任务 尽管 OpenAI 的模型已在国际数学奥林匹克竞赛中荣获金牌,但其 最新 的 AI 系统仍会产生幻觉,其智能体在执行复杂任务时也仍面临挑战。

目前市面上的 AI 智能体,如 OpenAI 的 Codex,最适合在编码等定义明确、可验证的领域工作。但在处理购物或寻找停车位等复杂且主观的任务时,通用 AI 智能体仍然举步维艰。

OpenAI 研究员诺姆·布朗(Noam Brown)表示,公司正在探索新的通用强化学习技术,以应对这些难以验证的任务。通过这种方式,OpenAI 打造了能在数学竞赛中夺金的模型。该模型能够生成多个“代理”,同时探索多个想法,最终选出 最佳 答案。谷歌和 xAI 等公司也已开始采用类似技术。

OpenAI 希望通过即将推出的 GPT-5等模型,进一步巩固其在 AI 领域的领先地位。埃尔·基什基表示,OpenAI 的最终目标是打造能够直观理解用户意图、无需繁琐设置的 AI 智能体。

尽管 OpenAI 在几年前引领了人工智能行业,但如今谷歌、Anthropic、xAI 和 Meta 等强劲对手也正迎头赶上。问题已不再是 OpenAI 能否实现其智能代理的未来,而是能否在竞争对手之前做到这一点。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日