OpenAI 的 Gpt-4.5 在 Chatbot Arena 的多个类别中占据主导地位
快速阅读: 据《Neowin.net》称,上周,OpenAI发布了最新的GPT-4.5模型,该模型在多项基准测试中表现出色,尤其是在写作、个性塑造、多轮对话和复杂提示处理等方面。同时,xAI的Grok-3模型也在多个领域并列第一。OpenAI宣布GPT-4.5将是最后一个非链式思维模型,并将与O系列模型合并,未来所有用户都能访问GPT-5的不同智能模式。
上周,OpenAI发布了其迄今为止最大的前沿模型GPT-4.5。OpenAI宣称GPT-4.5是当前最博学的模型,并且它是通过进一步扩大预训练规模构建的。与OpenAI的旧模型相比,GPT-4.5在写作技能和个性塑造方面也有显著改进。本周,GPT-4.5模型在聊天机器人竞技场中首次亮相,在大多数类别中位居第一。GPT-4.5在多轮对话、复杂提示处理、编程、数学、创意写作、指令遵循和长查询方面处于领先地位。GPT-4.5还在风格控制榜单上领先。同时,xAI的最新模型Grok-3(grok-3-preview-02-24)也在竞技场排行榜上以英文复杂提示处理第一名的成绩首次亮相,并在编程、数学、创意写作、指令遵循和长查询方面并列第一。GPT-4.5和Grok-3的快速进步突显了人工智能领域竞争的加剧。OpenAI的GPT-4.5在多个其他AI基准测试中名列前茅。它在淘汰赛基准测试中得分第一。淘汰赛是一个多人游戏,测试大型语言模型在社交推理、策略和欺骗能力上的表现。在智商测试分数排名中,GPT-4.5的表现优于所有非推理模型。在SimpleQA幻觉率基准测试中,GPT-4.5在所有OpenAI的大语言模型中得分最低。上个月,OpenAI首席执行官Sam Altman透露,GPT-4.5是OpenAI最后一个非链式思维模型。此外,OpenAI将不再单独发布O3模型。相反,OpenAI将通过创建能够根据用户查询自动调整思考时间的系统来统一O系列和GPT系列模型。Sam Altman还确认,即使是ChatGPT免费层级的用户也将能够访问GPT-5,但仅限于标准智能模式。ChatGPT Plus订阅者可以以更高智能水平运行GPT-5,而Pro订阅者则可以以最高智能水平运行GPT-5。此外,统一模型将支持所有现有的ChatGPT功能,包括语音、画布、搜索、深度研究等。
(以上内容均由Ai生成)