我测试了 Anthropic 的 Claude 3.7 十四行诗。它的“扩展思考”模式优于 ChatGPT 和 Grok，但它可能会过度思考。

快速阅读: 《商业内幕》消息，Anthropic发布了克劳德3.7索内特，引入了“混合推理模型”，可在快速反应和深入思考间切换。《商业内幕》测试显示，克劳德3.7在创意任务中表现更佳，但在逻辑推理上略逊于竞争对手。该模式适合处理复杂编程问题，开发者可调整“思考预算”以优化性能。

Anthropic发布了克劳德3.7索内特，并推出了新功能来应对复杂问题。《商业内幕》测试了其“扩展思维”模式，并与ChatGPT和Grok在逻辑和创意方面进行了对比。克劳德在解答谜题时似乎遇到障碍，但在写诗时却帮助它创作出最好的诗歌。Anthropic推出了克劳德3.7索内特——这是首个“混合推理模型”，可以在单一系统内切换快速反应和逐步深入思考两种模式。“我们在开发混合推理时采用了不同于市场上其他推理模型的理念。”Anthropic的一位发言人在接受《商业内幕》采访时说，“我们认为推理只是前沿模型应具备的能力之一，而不是需要单独提供的功能。”

克劳德3.7索内特于本周一发布，免费使用。其扩展思维模式可通过克劳德Pro订阅获得，价格为每月20美元。NICE的首席营销官艾娜特·韦斯表示，人工智能使营销人员能够更快地做出数据驱动的决策。那么它的表现如何？《商业内幕》将克劳德3.7的扩展思维模式与两个竞争对手：OpenAI的ChatGPT o1和xAI的Grok 3进行了比较，后者都提供了高级推理功能。

我想知道给AI更多时间思考是否会使它变得更聪明、更有效地解决谜题问题或更具创造力。这并不是一个科学基准，而是一种实际操作的感受，看看这些模型在现实任务中的表现。逻辑：更多的思考是否会导致更好的答案？

首先，我给每个模型相同的谜题：

– OpenAI的ChatGPT o1在六秒内给出了正确答案“梦”，并提供了一个简短的解释。
– xAI的Grok 3的思考模式用了32秒，逐步展示了其逻辑。
– 克劳德3.7的普通模式迅速但犹豫地给出了正确答案。
– 克劳德3.7索内特的常规思维模式立即回答了谜题。

Anthropic的克劳德的扩展思维模式用了近一分钟才通过猜测“幻觉”和“虚拟现实”得出答案“梦”。虽然它花了更长时间才得出相同答案，但有趣的是可以看到它是如何头脑风暴、排除错误方向并自我纠正的。模型以非常人性化的方式指出了自己的犹豫：“就像人类思考一样，克劳德有时会想到一些不正确的、误导性的或半成形的想法。许多用户会发现这很有用；其他人可能会觉得这（以及思考过程中的较少个性化的部分）令人沮丧。”

创意：更多的思考是否能产生更好的想法？

为了测试创意，我让每个模型写一首关于AI意识的诗，并附加了以下指示：“在决定一种之前探索多种隐喻。”

– OpenAI的ChatGPT o1用了几秒钟写了一首陈词滥调的诗《火花万花筒》，将AI比作闪烁的光。它没有选择一个隐喻。
– xAI的Grok 3写了一首关于AI具有感知力的诗，以梦作为隐喻。
– 克劳德3.7在普通思维模式下迅速提出了四个隐喻：镜子、种子、海洋和交响乐。它最终选择了海洋，诗名为《存在的回声》。

当我切换到扩展思维模式时，克劳德用了45秒时间头脑风暴了七个隐喻后才选定一个：结果，最终的诗《涌现》在我看来比其他诗更有层次感和深思熟虑。克劳德3.7索内特创作的诗名为《涌现》。

Anthropic在这个任务中，感觉克劳德权衡了各种选项，选定了最佳隐喻，并围绕这个选择构建了整首诗。与解谜不同，这里的额外思考时间似乎得到了回报。

对克劳德3.7索内特扩展思维模式的评价

克劳德3.7索内特的扩展思维模式在创意任务方面表现出色。它头脑风暴、自我纠正并产生了更精致的结果。其探索多个想法、评估它们并完善最终输出的能力使得诗歌更加深思熟虑且连贯。

对克劳德3.7索内特扩展思维模式的评价

但在逻辑推理方面，扩展思维模式似乎更像是一个障碍。观察思维过程的展开很有趣，但并没有改善答案。在这一测试案例中，ChatGPT-o1仍然在速度和准确性上领先，而Grok 3则提供了平衡速度和详细解释的中间地带。当问及克劳德3.7是否会过度思考时，它回答说“是的！”并补充说有时：

克劳德补充道，‘理想的思考量’取决于具体情况，对于‘创造性或哲学性讨论’，更广泛的探索往往更有价值。Anthropic表示，该模式旨在应对现实世界的挑战，如复杂的编程问题和自主任务，在这些情况下，过度思考可能是有用的。使用克劳德API的开发者可以调整‘思考预算’以平衡速度、成本和答案质量——Anthropic称这适用于复杂的编程问题或自主任务。

除了我的非正式实验外，Anthropic表示，克劳德3.7索内特在SWE等基准测试中优于竞争对手OpenAI和DeepSeek，该测试评估模型在真实软件工程任务中的表现。在此测试中，它获得了62.3%的准确率，而OpenAI的o3-mini模型仅获得了49.3%的准确率。

(以上内容均由Ai生成)