OpenAI 的新 Gpt-4.1 模型可以处理 100 万个令牌,并比以往任何时候都更好地解决编码问题
快速阅读: 据《VentureBeat 公司》称,OpenAI推出GPT-4.1系列AI模型,通过降低成本和提升性能应对市场竞争。新模型在软件工程任务上表现更优,支持百万令牌上下文长度,并有不同版本满足多样化需求。
OpenAI 今日推出了新一代 AI 模型系列,这些模型在显著提升编码能力的同时降低了成本,直接应对了企业 AI 市场日益激烈的竞争。这家位于旧金山的 AI 公司发布了三款模型——GPT-4.1、GPT-4.1 迷你版和 GPT-4.1 纳米版,所有这些模型均可通过其 API 即时使用。新系列模型在软件工程任务上的表现更佳,能更精确地遵循指令,并且可以处理高达一百万令牌的上下文长度,相当于大约 750,000 个单词。
“GPT-4.1 在降低成本的同时提供了卓越的表现,” OpenAI 首席产品官凯文·威尔在周一的公告中说道,“在几乎所有方面,这些模型都优于 GPT-4o。” 对于企业客户来说,最显著的是定价:GPT-4.1 的价格比其前身低 26%,而轻量级的纳米版将成为 OpenAI 最经济实惠的选择,每百万令牌仅需 12 美分。
GPT-4.1 如何针对企业开发者的痛点进行改进
在接受《VentureBeat》采访时,OpenAI 后训练研究主管米歇尔·波克拉斯强调,实际业务应用推动了开发过程。“GPT-4.1 的训练目标只有一个:对开发者有用,” 波克拉斯告诉《VentureBeat》。“我们发现 GPT-4.1 在遵循企业实际使用的指令方面表现得更好,这使得部署生产就绪的应用程序变得更加容易。”
这种对现实世界实用性的关注反映在基准测试结果中。在衡量软件工程能力的 SWE-bench Verified 上,GPT-4.1 得分 54.6%,比 GPT-4o 提高了 21.4 个百分点。对于正在开发独立工作的 AI 代理以完成复杂任务的企业来说,指令遵循能力的提升尤为重要。在 Scale 的 MultiChallenge 基准测试中,GPT-4.1 得分 38.3%,比 GPT-4o 高出 10.5 个百分点。
为什么 OpenAI 的三层模型策略挑战了像 Google 和 Anthropic 这样的竞争对手
推出三个不同价位的模型解决了日益多样化的 AI 市场。旗舰产品 GPT-4.1 针对复杂的商业应用,而迷你版和纳米版则满足那些速度和成本效率优先的应用场景。“并非所有任务都需要最高智能或顶级能力,” 波克拉斯告诉《VentureBeat》。“纳米版将成为一款主打模型,适用于自动补全、分类、数据提取等任何速度是首要考虑的用例。”
同时,OpenAI 宣布计划在 7 月 14 日前从其 API 中下架刚刚两个月前发布的最大且最昂贵的模型 GPT-4.5 预览版。该公司将 GPT-4.1 定位为一个更具成本效益的替代品,在许多关键能力上提供“改进或类似性能”,并且成本更低、延迟更少。这一举措使 OpenAI 能够回收计算资源,同时为开发者提供了一个比其最昂贵产品(每百万输入令牌 75 美元,每百万输出令牌 150 美元)更为高效的替代方案。
真实世界的结果:汤森路透、凯雷和风帆如何利用 GPT-4.1
在发布前测试这些模型的一些企业客户报告称,在特定领域取得了显著改进。汤森路透在其法律 AI 助手 CoCounsel 中使用 GPT-4.1 时,多文档审查准确性提高了 17%。这一增强对于涉及大量文件且条款之间关系微妙的复杂法律工作流程特别有价值。
金融公司凯雷报告称,在从密集文档中提取细粒度财务数据方面表现提高了 50%——这是投资分析和决策的关键能力。编码工具提供商 WindSurf(前身为 Codeium)的首席执行官瓦伦·莫汉在发布会上分享了详细性能指标。“我们发现,与其它领先模型相比,GPT-4.1 需要读取不必要的文件次数减少了 40%,修改不必要的文件次数减少了 70%,” 莫汉说。“该模型还出乎意料地不那么啰嗦……GPT-4.1 比其他领先模型少 50% 啰嗦。”
百万令牌上下文长度:企业可以利用八倍于处理能力做什么
这三个模型均具备一百万个令牌的上下文长度——比 GPT-4o 的 128,000 令牌限制大八倍。这种扩展能力允许模型一次性处理多个长文档或整个代码库。在演示中,OpenAI 展示了 GPT-4.1 分析 NASA 1995 年 450,000 令牌服务器日志文件的能力,识别深藏于数据中的异常条目。这种能力对于涉及大数据集的任务尤其有价值,例如代码存储库或公司文档集合。
然而,OpenAI 承认在极大规模输入时性能会下降。在其内部的 OpenAI-MRCR 测试中,准确率从 8,000 令牌时的约 84% 下降到一百万令牌时的 50%。
随着谷歌、Anthropic 和 OpenAI 争夺开发者,企业 AI 格局如何变化
此次发布正值企业 AI 市场竞争加剧之际。谷歌最近推出了具有相似一百万令牌上下文长度的 Gemini 2.5 Pro,而 Anthropic 的 Claude 3.7 Sonnet 因其寻求 OpenAI 替代方案的企业用户而受到欢迎。中国 AI 初创公司 DeepSeek 也最近升级了其模型,给 OpenAI 保持领先地位带来更大压力。
“看到长期上下文理解的改进如何转化为法律分析和提取财务数据等特定领域的更好表现真的很酷,” 波克拉斯说。“我们发现,必须在学术基准之外测试我们的模型,确保它们在企业和开发者中表现良好。”
接下来:OpenAI 致力于为企业和开发者提供实用的 AI 工具
通过其 API 而不是 ChatGPT 发布这些模型,OpenAI 表明了其对开发者和企业客户的承诺。该公司计划随着时间推移逐步将 GPT-4.1 的功能整合到 ChatGPT 中,但主要重点仍然是为企业构建专用应用程序提供强大工具。
为了鼓励进一步研究长上下文处理,OpenAI 将发布两个评估数据集:用于测试多轮指代能力的 OpenAI-MRCR 和用于评估长文档复杂推理的 Graphwalks。
对于企业决策者来说,GPT-4.1 家族提供了一种更实用、更具成本效益的 AI 实施方法。随着组织继续将其 AI 集成到运营中,这些在可靠性、特异性和效率方面的改进可能会加速仍在权衡实施成本与潜在收益的行业中的采用。
尽管竞争对手追逐更大、更昂贵的模型,OpenAI 的战略转变表明 AI 的未来可能不属于最大的模型,而是属于最高效的模型。真正的突破可能不是在基准测试中,而是在让企业级 AI 触及比以往更多的企业。
每日商业用例洞察:VB 每日
如果你想给老板留下深刻印象,VB 每日可以帮你做到。我们为你提供独家内幕,了解公司如何使用生成式 AI,从监管变化到实际部署,以便你可以分享洞见以实现最大价值。立即订阅阅读我们的隐私政策。感谢订阅。查看更多 VB 资讯 [此处链接]。
发生错误。
(以上内容均由Ai生成)