阿里巴巴的新开源模型 QwQ-32B 与 DeepSeek R1 相匹配,但计算要求要小得多

发布时间:2025年3月6日    来源:szf
阿里巴巴的新开源模型 QwQ-32B 与 DeepSeek R1 相匹配,但计算要求要小得多

快速阅读: 据《VentureBeat 公司》称,阿里巴巴旗下的Qwen团队推出QwQ-32B,一款320亿参数的推理模型,旨在通过强化学习提高复杂问题解决能力。该模型在Hugging Face和ModelScope上以开放权重形式提供,支持商业和研究用途。QwQ-32B通过多阶段强化学习提升了数学推理和编码能力,展现出与更大模型相当的竞争力。其高效性和灵活性使其成为企业AI策略的有力选择。

加入我们的每日和每周通讯,获取行业领先的AI最新更新和独家内容。了解详情Qwen团队,作为中国电子商务巨头阿里巴巴的一个部门,正在开发其不断扩大的开源Qwen大型语言模型(LLM)家族,推出了QwQ-32B,这是一种新的320亿参数推理模型,旨在通过强化学习(强化学习)提高在复杂问题解决任务中的性能。该模型在Hugging Face上以开放权重形式提供,并在ModelScope上以Apache 2.0许可形式提供。这意味着它可用于商业和研究用途,因此企业可以立即使用它来为其产品和应用程序提供动力(即使是那些向客户收费的应用程序)。个人用户也可以通过Qwen聊天访问它。

带有问题的全量(注:这是阿里巴巴对OpenAI原始推理模型o1的回答)QwQ,简称Qwen-问题,于2024年11月首次由阿里巴巴推出,作为一个开源推理模型,旨在与OpenAI的o1-preview竞争。在发布时,该模型设计用于增强逻辑推理和规划,在推理过程中审查和改进自己的响应,这一技术使其在数学和编码任务中特别有效。QwQ的初始版本具有320亿个参数和32,000个令牌的上下文长度,阿里巴巴强调其在数学基准测试如AIME和MATH以及科学推理任务如GPQA方面优于o1-preview。尽管有这些优势,QwQ的早期迭代在编程基准测试如LiveCodeBench方面遇到了困难,OpenAI的模型保持了优势。此外,与其他新兴推理模型一样,QwQ也面临诸如语言混合和偶尔循环推理的问题。然而,阿里巴巴决定以Apache 2.0许可发布该模型,确保开发者和企业可以自由地适应和商业化它,这与OpenAI的o1等专有替代品有所不同。

自QwQ首次发布以来,AI领域迅速发展。传统LLM的局限性变得更加明显,随着规模法则带来的性能提升逐渐减少。这种转变激发了对大型推理模型(LRMs)的兴趣——这是一种新型AI系统,利用推理时间和自我反思来提高准确性。这些包括OpenAI的o3系列和来自竞争对手中国实验室DeepSeek的DeepSeek-R1,这是香港定量分析公司High-Flyer Capital Management的分支。一份来自网络流量分析和研究公司SimilarWeb的新报告显示,自R1于2024年1月发布以来,DeepSeek已经迅速攀升成为仅次于OpenAI的最受欢迎的AI模型提供网站。信用:SimilarWeb,生成式AI全球产业趋势报告

QwQ-32B,阿里巴巴的最新迭代,通过集成强化学习和结构化自我提问,定位为推理型AI领域的有力竞争者。通过多阶段强化学习提升性能,传统的指令调优模型往往难以应对复杂的推理任务,但Qwen团队的研究表明,强化学习可以显著提高模型解决复杂问题的能力。QwQ-32B通过实施多阶段强化学习训练方法来增强数学推理、编码能力和通用问题解决能力。

该模型已针对领先替代品如DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B进行了基准测试,尽管参数较少,但仍表现出竞争力。例如,虽然DeepSeek-R1拥有6710亿个参数(激活370亿),QwQ-32B以更小的体积实现了可比性能——通常需要该模型已针对领先替代品如DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B进行了基准测试,尽管参数较少,但仍表现出竞争力。GPU上的24GB vRAM(Nvidia的H100s有80GB)相比运行完整的DeepSeek R1(16块Nvidia A100 GPU)所需的超过1500GB vRAM,突显了Qwen的强化学习方法的效率。

QwQ-32B遵循因果语言模型架构,并包含多个优化:64层Transformer,配备RoPE、SwiGLU、RMSNorm和Attention QKV偏置;带40个查询注意力头和8个键值对注意力头的广义查询注意力(GQA);扩展的上下文长度为131,072个令牌,允许更好地处理长序列输入;多阶段训练,包括预训练、监督微调和强化学习。QwQ-32B的强化学习过程分为两个阶段:数学和编码重点:模型使用准确度验证器进行数学推理训练,并使用代码执行服务器进行编码任务。这种方法确保生成的答案在被加强之前经过验证。通用能力增强:在第二阶段,模型接收基于奖励的训练,使用通用奖励模型和基于规则的验证器。这一阶段提高了指令遵循、人类对齐和代理推理,而不会损害其数学和编码能力。

对企业决策者意味着什么

对于企业领导者——包括CEO、CTO、IT领导者、团队经理和AI应用开发者——QwQ-32B代表了AI如何支持业务决策和技术创新的一种潜在转变。凭借其强化学习驱动的推理能力,该模型可以提供更准确、结构化和情境感知的洞察力,使其在自动化数据分析、战略规划、软件开发和智能自动化等用例中具有价值。寻求部署AI解决方案以解决复杂问题、编码辅助、金融建模或客户服务自动化的公司可能会发现QwQ-32B的效率是一个吸引人的选择。此外,其开放权重可用性允许组织对其进行微调和定制,以满足特定领域的应用,而不受专有限制,使其成为企业AI策略的灵活选择。由于它来自一家中国电子商务巨头,对于一些非中国用户来说,可能会引起一些安全和偏见方面的担忧,特别是在使用Qwen聊天界面时。但正如DeepSeek-R1一样,该模型在Hugging Face上可供下载和离线使用、微调或再训练,这表明这些问题可以相对容易地克服。而且,它是DeepSeek-R1的一个可行替代品。

AI实力用户和影响者的早期反应

QwQ-32B的发布已经引起了AI研发社区的关注,几位开发者和行业专业人士在X(前身为Twitter)上分享了他们的初步印象:Hugging Face的Vaibhav Srivastav (@reach_vb) 强调了QwQ-32B在推理速度上的优势,归功于提供商Hyperbolic Labs,称其“飞快”,可与顶级模型相媲美。他还指出,该模型“在Apache 2.0许可下击败了DeepSeek-R1和OpenAI o1-mini”。AI新闻和谣言出版商Chubby (@kimmonismus) 对该模型的性能印象深刻,强调QwQ-32B有时会超越DeepSeek-R1,尽管其大小仅为后者的一小部分。“天啊!Qwen太棒了!”他们写道。Yuchen Jin (@Yuchenj_UW),Hyperbolic Labs的联合创始人兼CTO,庆祝发布时提到效率提升。“小型模型如此强大!阿里巴巴Qwen发布了QwQ-32B,一个推理模型,击败了DeepSeek-R1(671B)和OpenAI o1-mini!”另一位Hugging Face团队成员,Erik Kaunismäki (@ErikKaum) 强调了部署的便捷性,分享说该模型可在Hugging Face端点上实现一键部署,使开发者无需大量设置即可访问。

自主能力

QwQ-32B集成了自主能力,可以根据环境反馈动态调整推理过程。为了最佳性能,Qwen团队推荐以下推理设置:

– 温度:0.6
– TopP:0.95
– TopK:20-40之间
– YaRN缩放:建议用于处理超过32,768个令牌的序列

该模型支持使用vLLM进行部署,这是一个高吞吐量推理框架。然而,当前的vLLM实现仅支持静态YaRN缩放,即无论输入长度如何都维持固定的缩放因子。

未来的发展

Qwen团队认为QwQ-32B是将强化学习扩展到增强推理能力的第一步。展望未来,团队计划:

– 进一步探索将强化学习扩展以提高模型智能;
– 将代理与强化学习结合以进行长期推理;
– 继续开发针对强化学习优化的基础模型;
– 通过更先进的训练技术迈向通用人工智能(AGI)。

借助QwQ-32B,Qwen团队将强化学习定位为下一代AI模型的关键驱动力,展示了规模扩展能够产生高性能且有效的推理系统。

VB每日商业用例洞察

如果您想给老板留下深刻印象,VB每日商业用例洞察为您提供帮助。我们为您揭秘公司如何使用生成式AI,从监管变化到实际部署,以便您分享见解以获得最大回报。现在订阅阅读我们的隐私政策感谢您的订阅。

查看更多VB通讯。

(以上内容均由Ai生成)

关键词: 32BDeepseekQwqR1开源

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日