OpenAI 通过新的开发人员 API 推送 AI 代理功能
快速阅读: 据《Ars Technica》称,使用Responses API的开发者可访问与ChatGPT相同的模型,包括具有网络搜索功能的GPT-4o搜索模型和GPT-4o迷你搜索模型。这些模型在事实准确性上表现更佳,在OpenAI的SimpleQA基准测试中得分分别为90%和88%,远超无搜索功能的GPT-4.5版本(63%)。此外,OpenAI发布了开源的Agents SDK工具包,帮助开发者将模型集成到系统中,并实施安全措施。尽管如此,AI仍存在编造事实等问题。
使用Responses API的开发者们可以访问与ChatGPT相同的模型:GPT-4o搜索模型和GPT-4o迷你搜索模型。这些模型能够浏览网络以回答问题并引用来源。这一点值得注意,因为OpenAI表示,增加的网络搜索能力显著提升了其AI模型的事实准确性。在OpenAI的SimpleQA基准测试中,旨在衡量编造率,GPT-4o搜索模型得分90%,而GPT-4o迷你搜索模型达到了88%——两者都明显优于没有搜索功能的更大GPT-4.5版本模型,后者得分为63%。尽管有了这些改进,这项技术仍然存在重大局限性。除了CUA正确导航网站的问题外,改进的搜索能力并不能彻底解决AI编造的问题,GPT-4o搜索模型仍有10%的时间会犯事实错误。
除了Responses API之外,OpenAI发布了开源的Agents SDK,为开发者提供免费的工具,将模型集成到内部系统中,实施安全措施,并监控代理活动。这个工具包紧随OpenAI早先发布的Swarm之后,Swarm是一个用于协调多个代理的框架。这是AI代理领域的早期阶段,未来可能会迅速改善。然而,目前AI代理运动仍容易受到不切实际的声明的影响,正如本周早些时候用户发现的情况那样,中国初创公司Butterfly Effect的Manus AI代理系统平台未能兑现许多承诺,突显了这一新兴技术类别中宣传声明与实际功能之间的持续差距。
(以上内容均由Ai生成)