我测试了 Anthropic 的 Claude 3.7 十四行诗。它的“扩展思考”模式优于 ChatGPT 和 Grok,但它可能会过度思考。

发布时间:2025年2月26日    来源:szf
我测试了 Anthropic 的 Claude 3.7 十四行诗。它的“扩展思考”模式优于 ChatGPT 和 Grok,但它可能会过度思考。

快速阅读: 《商业内幕》消息,Anthropic发布了克劳德3.7索内特,引入了“混合推理模型”,可在快速反应和深入思考间切换。《商业内幕》测试显示,克劳德3.7在创意任务中表现更佳,但在逻辑推理上略逊于竞争对手。该模式适合处理复杂编程问题,开发者可调整“思考预算”以优化性能。

Anthropic发布了克劳德3.7索内特,并推出了新功能来应对复杂问题。《商业内幕》测试了其“扩展思维”模式,并与ChatGPT和Grok在逻辑和创意方面进行了对比。克劳德在解答谜题时似乎遇到障碍,但在写诗时却帮助它创作出最好的诗歌。Anthropic推出了克劳德3.7索内特——这是首个“混合推理模型”,可以在单一系统内切换快速反应和逐步深入思考两种模式。“我们在开发混合推理时采用了不同于市场上其他推理模型的理念。”Anthropic的一位发言人在接受《商业内幕》采访时说,“我们认为推理只是前沿模型应具备的能力之一,而不是需要单独提供的功能。”

克劳德3.7索内特于本周一发布,免费使用。其扩展思维模式可通过克劳德Pro订阅获得,价格为每月20美元。NICE的首席营销官艾娜特·韦斯表示,人工智能使营销人员能够更快地做出数据驱动的决策。那么它的表现如何?《商业内幕》将克劳德3.7的扩展思维模式与两个竞争对手:OpenAI的ChatGPT o1和xAI的Grok 3进行了比较,后者都提供了高级推理功能。

我想知道给AI更多时间思考是否会使它变得更聪明、更有效地解决谜题问题或更具创造力。这并不是一个科学基准,而是一种实际操作的感受,看看这些模型在现实任务中的表现。逻辑:更多的思考是否会导致更好的答案?

首先,我给每个模型相同的谜题:

– OpenAI的ChatGPT o1在六秒内给出了正确答案“梦”,并提供了一个简短的解释。
– xAI的Grok 3的思考模式用了32秒,逐步展示了其逻辑。
– 克劳德3.7的普通模式迅速但犹豫地给出了正确答案。
– 克劳德3.7索内特的常规思维模式立即回答了谜题。

Anthropic的克劳德的扩展思维模式用了近一分钟才通过猜测“幻觉”和“虚拟现实”得出答案“梦”。虽然它花了更长时间才得出相同答案,但有趣的是可以看到它是如何头脑风暴、排除错误方向并自我纠正的。模型以非常人性化的方式指出了自己的犹豫:“就像人类思考一样,克劳德有时会想到一些不正确的、误导性的或半成形的想法。许多用户会发现这很有用;其他人可能会觉得这(以及思考过程中的较少个性化的部分)令人沮丧。”

创意:更多的思考是否能产生更好的想法?

为了测试创意,我让每个模型写一首关于AI意识的诗,并附加了以下指示:“在决定一种之前探索多种隐喻。”

– OpenAI的ChatGPT o1用了几秒钟写了一首陈词滥调的诗《火花万花筒》,将AI比作闪烁的光。它没有选择一个隐喻。
– xAI的Grok 3写了一首关于AI具有感知力的诗,以梦作为隐喻。
– 克劳德3.7在普通思维模式下迅速提出了四个隐喻:镜子、种子、海洋和交响乐。它最终选择了海洋,诗名为《存在的回声》。

当我切换到扩展思维模式时,克劳德用了45秒时间头脑风暴了七个隐喻后才选定一个:结果,最终的诗《涌现》在我看来比其他诗更有层次感和深思熟虑。克劳德3.7索内特创作的诗名为《涌现》。

Anthropic在这个任务中,感觉克劳德权衡了各种选项,选定了最佳隐喻,并围绕这个选择构建了整首诗。与解谜不同,这里的额外思考时间似乎得到了回报。

对克劳德3.7索内特扩展思维模式的评价

克劳德3.7索内特的扩展思维模式在创意任务方面表现出色。它头脑风暴、自我纠正并产生了更精致的结果。其探索多个想法、评估它们并完善最终输出的能力使得诗歌更加深思熟虑且连贯。

对克劳德3.7索内特扩展思维模式的评价

但在逻辑推理方面,扩展思维模式似乎更像是一个障碍。观察思维过程的展开很有趣,但并没有改善答案。在这一测试案例中,ChatGPT-o1仍然在速度和准确性上领先,而Grok 3则提供了平衡速度和详细解释的中间地带。当问及克劳德3.7是否会过度思考时,它回答说“是的!”并补充说有时:

克劳德补充道,‘理想的思考量’取决于具体情况,对于‘创造性或哲学性讨论’,更广泛的探索往往更有价值。Anthropic表示,该模式旨在应对现实世界的挑战,如复杂的编程问题和自主任务,在这些情况下,过度思考可能是有用的。使用克劳德API的开发者可以调整‘思考预算’以平衡速度、成本和答案质量——Anthropic称这适用于复杂的编程问题或自主任务。

除了我的非正式实验外,Anthropic表示,克劳德3.7索内特在SWE等基准测试中优于竞争对手OpenAI和DeepSeek,该测试评估模型在真实软件工程任务中的表现。在此测试中,它获得了62.3%的准确率,而OpenAI的o3-mini模型仅获得了49.3%的准确率。

(以上内容均由Ai生成)

你可能还想读

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日
人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

人工智能将导致财富、权力的集中;必须使用人工智能来解决社会挑战:Nilekani

快速阅读: 据《印度教业务线》称,印度联合创始人纳南·尼莱卡尼表示,AI应用于解决实际问题,提升医疗与教育,强调简约设计和持续创新,反对全民基本收入,主张用AI放大人类潜力。 据《亚洲时报》报道,7月27日,纽约,印度信息技术服务巨头Inf […]

发布时间:2025年8月1日