我测试了 Anthropic 的 Claude 3.7 十四行诗。它的“扩展思考”模式优于 ChatGPT 和 Grok,但它可能会过度思考。
快速阅读: 《商业内幕》消息,Anthropic发布了克劳德3.7索内特,引入了“混合推理模型”,可在快速反应和深入思考间切换。《商业内幕》测试显示,克劳德3.7在创意任务中表现更佳,但在逻辑推理上略逊于竞争对手。该模式适合处理复杂编程问题,开发者可调整“思考预算”以优化性能。
Anthropic发布了克劳德3.7索内特,并推出了新功能来应对复杂问题。《商业内幕》测试了其“扩展思维”模式,并与ChatGPT和Grok在逻辑和创意方面进行了对比。克劳德在解答谜题时似乎遇到障碍,但在写诗时却帮助它创作出最好的诗歌。Anthropic推出了克劳德3.7索内特——这是首个“混合推理模型”,可以在单一系统内切换快速反应和逐步深入思考两种模式。“我们在开发混合推理时采用了不同于市场上其他推理模型的理念。”Anthropic的一位发言人在接受《商业内幕》采访时说,“我们认为推理只是前沿模型应具备的能力之一,而不是需要单独提供的功能。”
克劳德3.7索内特于本周一发布,免费使用。其扩展思维模式可通过克劳德Pro订阅获得,价格为每月20美元。NICE的首席营销官艾娜特·韦斯表示,人工智能使营销人员能够更快地做出数据驱动的决策。那么它的表现如何?《商业内幕》将克劳德3.7的扩展思维模式与两个竞争对手:OpenAI的ChatGPT o1和xAI的Grok 3进行了比较,后者都提供了高级推理功能。
我想知道给AI更多时间思考是否会使它变得更聪明、更有效地解决谜题问题或更具创造力。这并不是一个科学基准,而是一种实际操作的感受,看看这些模型在现实任务中的表现。逻辑:更多的思考是否会导致更好的答案?
首先,我给每个模型相同的谜题:
– OpenAI的ChatGPT o1在六秒内给出了正确答案“梦”,并提供了一个简短的解释。
– xAI的Grok 3的思考模式用了32秒,逐步展示了其逻辑。
– 克劳德3.7的普通模式迅速但犹豫地给出了正确答案。
– 克劳德3.7索内特的常规思维模式立即回答了谜题。
Anthropic的克劳德的扩展思维模式用了近一分钟才通过猜测“幻觉”和“虚拟现实”得出答案“梦”。虽然它花了更长时间才得出相同答案,但有趣的是可以看到它是如何头脑风暴、排除错误方向并自我纠正的。模型以非常人性化的方式指出了自己的犹豫:“就像人类思考一样,克劳德有时会想到一些不正确的、误导性的或半成形的想法。许多用户会发现这很有用;其他人可能会觉得这(以及思考过程中的较少个性化的部分)令人沮丧。”
创意:更多的思考是否能产生更好的想法?
为了测试创意,我让每个模型写一首关于AI意识的诗,并附加了以下指示:“在决定一种之前探索多种隐喻。”
– OpenAI的ChatGPT o1用了几秒钟写了一首陈词滥调的诗《火花万花筒》,将AI比作闪烁的光。它没有选择一个隐喻。
– xAI的Grok 3写了一首关于AI具有感知力的诗,以梦作为隐喻。
– 克劳德3.7在普通思维模式下迅速提出了四个隐喻:镜子、种子、海洋和交响乐。它最终选择了海洋,诗名为《存在的回声》。
当我切换到扩展思维模式时,克劳德用了45秒时间头脑风暴了七个隐喻后才选定一个:结果,最终的诗《涌现》在我看来比其他诗更有层次感和深思熟虑。克劳德3.7索内特创作的诗名为《涌现》。
Anthropic在这个任务中,感觉克劳德权衡了各种选项,选定了最佳隐喻,并围绕这个选择构建了整首诗。与解谜不同,这里的额外思考时间似乎得到了回报。
对克劳德3.7索内特扩展思维模式的评价
克劳德3.7索内特的扩展思维模式在创意任务方面表现出色。它头脑风暴、自我纠正并产生了更精致的结果。其探索多个想法、评估它们并完善最终输出的能力使得诗歌更加深思熟虑且连贯。
对克劳德3.7索内特扩展思维模式的评价
但在逻辑推理方面,扩展思维模式似乎更像是一个障碍。观察思维过程的展开很有趣,但并没有改善答案。在这一测试案例中,ChatGPT-o1仍然在速度和准确性上领先,而Grok 3则提供了平衡速度和详细解释的中间地带。当问及克劳德3.7是否会过度思考时,它回答说“是的!”并补充说有时:
克劳德补充道,‘理想的思考量’取决于具体情况,对于‘创造性或哲学性讨论’,更广泛的探索往往更有价值。Anthropic表示,该模式旨在应对现实世界的挑战,如复杂的编程问题和自主任务,在这些情况下,过度思考可能是有用的。使用克劳德API的开发者可以调整‘思考预算’以平衡速度、成本和答案质量——Anthropic称这适用于复杂的编程问题或自主任务。
除了我的非正式实验外,Anthropic表示,克劳德3.7索内特在SWE等基准测试中优于竞争对手OpenAI和DeepSeek,该测试评估模型在真实软件工程任务中的表现。在此测试中,它获得了62.3%的准确率,而OpenAI的o3-mini模型仅获得了49.3%的准确率。
(以上内容均由Ai生成)