行业观察家称 Gpt-4.5 是一个“奇怪”的模型，质疑其价格

快速阅读: 据《VentureBeat 公司》最新报道，OpenAI发布了GPT-4.5，这是一个计算效率更高的大型语言模型。虽然它在多项测试中表现优于GPT-4，但并未在推理能力上有显著提升。Box CEO表示，GPT-4.5在处理复杂企业内容方面表现出色，但其高昂的成本引发质疑。部分专家认为，其性能并不突出，且闭源性质使其缺乏竞争力。

（注：已将英文原文翻译成中文）

加入我们的每日和每周通讯，获取行业领先的人工智能覆盖的最新更新和独家内容。了解更多，OpenAI宣布发布了GPT-4.5版本，CEO山姆·阿尔特曼此前曾表示这将是最后一个非链式思维（CoT）模型。该公司表示，新模型“并不是前沿模型”，但仍然是其最大的大型语言模型（LLM），具有更高的计算效率。阿尔特曼表示，尽管GPT-4.5的推理方式与OpenAI的其他新产品o1或o3-mini不同，但这一新模型仍然提供了更人性化的思想性。许多早期获得新模型访问权限的行业观察者发现，GPT-4.5是OpenAI的一个有趣举措，他们对模型应能达到的效果有所保留。沃顿商学院教授兼人工智能评论员伊森·莫尔克在社交媒体上表示，GPT-4.5是一个“非常奇怪且有趣的模型”，尽管它在复杂项目上有时会显得懒散，但它是一位强有力的写作者。OpenAI联合创始人、前特斯拉AI负责人安德烈·卡帕斯蒂指出，GPT-4.5让他回想起GPT-4发布时的情景，并看到了模型的潜力。他在X平台的一篇文章中表示，在使用GPT 4.5时，“一切都有所改善，这很棒，但也不完全显而易见”。然而，卡帕斯蒂警告说，人们不应期待该模型带来革命性的影响，因为它在推理至关重要的情况下（如数学、代码等）并未推进模型能力。

行业观点详细内容
以下是卡帕斯蒂在X平台上关于最新GPT迭代的长篇帖子中的内容：“今天标志着OpenAI发布了GPT4.5。自从GPT4发布以来，我就期待这一刻大约两年了，因为这次发布提供了一个定性测量，即通过扩大预训练计算规模（即简单地训练更大的模型）所能获得的进步斜率。每个版本的0.5大致相当于10倍的预训练计算。现在，请记住，GPT1几乎无法生成连贯的文本。GPT2是一个困惑的玩具。GPT2.5直接跳过了GPT3，后者更加有趣。GPT3.5达到了一个足够水平，可以作为产品发布，引发了OpenAI的‘ChatGPT时刻’。而GPT4也感觉更好，但我必须说，它确实感觉很微妙。我记得在一次黑客马拉松中尝试找到明确的例子，证明GPT4比3.5表现得更好。这些例子确实存在，但清晰且具体的‘一击必杀’的例子很难找到。就是这样……一切都只是稍微好了一点，但这种变化是分散的。用词选择更加有创意。对提示中细微之处的理解有所提高。类比更合理。模型更有趣。世界知识和理解在罕见领域的边缘得到了提升。幻觉出现得不那么频繁。氛围略微改善。感觉就像水位上升，所有船只都略有提升，每样东西都提高了20%。因此，带着这样的预期，我测试了GPT4.5，我有几天的时间来测试它，它接受了比GPT4多10倍的预训练计算。我觉得，再一次，我回到了两年前的那个黑客马拉松。一切都有所改善，这很棒，但也不完全显而易见。尽管如此，这仍然是一个非常有趣和令人兴奋的定性测量，表明从更大模型的预训练中可以获得某种能力的斜率。请记住，GPT4.5仅通过预训练、监督微调和RLHF进行训练，所以这还不是一种推理模型。因此，在推理至关重要的情况下（如数学、代码等），这一模型发布并没有推动模型能力的发展。在这种情况下，使用强化学习进行训练并获得思考能力非常重要，即使是在旧的基础模型（如GPT4左右的能力）之上也是如此。这里最先进的状态仍然是完整的o1。显然，OpenAI现在将寻求进一步利用GPT4.5进行强化学习训练，以允许它进行思考并在这些领域推动模型能力。然而，我们确实期望看到在不需要大量推理的任务中有所改进，我认为这些任务更多与情商（而非智商）相关，并且受到世界知识、创造力、类比制作、一般理解、幽默等因素的限制。因此，这些是我最感兴趣的在氛围检查中的任务。下面，我认为有趣的是突出5个有趣的/令人发笑的提示来测试这些能力，并在此X平台上组织成一个互动的‘LM Arena Lite’，使用图片和投票组合在一个线程中。遗憾的是，X不允许你在单个帖子中包含图片和投票，所以我不得不交替发布包含图片（显示提示以及来自4和4.5的两个响应）的帖子和投票，人们可以在其中投票选择哪个更好。8小时后，我将揭示哪个模型是哪个。让我们看看会发生什么。

Box首席执行官对GPT-4.5的看法
其他早期用户也看到了GPT-4.5的潜力。Box首席执行官亚伦·莱维在X上表示，他的公司使用GPT-4.5帮助从复杂的公司内容中提取结构化数据和元数据。“人工智能突破不断涌现。OpenAI今天发布了GPT-4.5，我们将在今天晚些时候向Box客户提供。我们一直在Box AI的早期访问模式下测试GPT4.5，用于高级企业非结构化数据应用场景，并取得了显著成果。在Box AI的企业评估中，我们针对各种不同的场景测试模型，如问答准确性、推理能力等。特别是为了探索GPT-4.5的能力，我们专注于一个具有重大企业影响潜力的关键领域：从复杂企业内容中提取结构化数据或元数据提取。在Box，我们使用多个企业级数据集严格评估数据提取模型。我们利用的一个关键数据集是CUAD，其中包括超过510份商业法律合同。在这个数据集中，Box已经识别出可以从非结构化内容中提取的17,000个字段，并根据单次提取这些字段的情况评估模型（这是我们的最难测试之一，模型只有一次机会一次性提取所有元数据，而不是多次尝试）。在我们的测试中，GPT-4.5正确提取了比GPT-4多19个百分点的字段，突显了其处理复杂合同时更好的能力。接下来，为了确保GPT-4.5能够应对现实世界企业内容的需求，我们对其性能进行了更严格的文件评估，包括Box自己的挑战集。我们选择了复杂法律合同的子集——那些包含多模态内容、高密度信息且长度超过200页的合同——以代表客户面临的最困难场景。在这组挑战中，GPT-4.5在提取关键字段方面也始终优于GPT-4，展示了其处理复杂和细微法律文档的优越能力。总体来说，我们在复杂企业数据上看到了GPT-4.5的强劲表现，这将解锁更多的企业应用场景。

价格及其重要性的疑问
即使早期用户发现GPT-4.5可用——尽管有些懒散——他们也对其发布提出了一些疑问。例如，著名OpenAI批评家加里·马库斯在Bluesky上称GPT-4.5为“无足轻重”。Hugging Face首席执行官克莱门特·德拉让评论说，GPT4.5的闭源性质使其“平平无奇”。然而，许多人指出，GPT-4.5的性能与其表现无关。相反，人们质疑为什么OpenAI会发布一个如此昂贵的模型，以至于几乎禁止使用，但其性能不如其他模型。一位用户在X上评论道：“所以你是说GPT-4.5比o1更有价值，但在基准测试中表现却不如它……让它说得通。”其他X用户提出了理论，认为高昂的令牌成本可能是为了阻止竞争对手如DeepSeek“提炼4.5模型”。DeepSeek在一月份成为了OpenAI的大竞争对手，行业领导者发现DeepSeek-R1的推理能力与OpenAI相当，但价格更为实惠。

每日业务用例洞察
如果您想给老板留下深刻印象，VB Daily为您服务。我们为您提供公司如何使用生成式人工智能的内部消息，从监管变动到实际部署，以便您分享见解以实现最大回报。立即订阅阅读我们的隐私政策感谢订阅。

(以上内容均由Ai生成)