阿里巴巴的新开源模型 QwQ-32B 与 DeepSeek R1 相匹配，但计算要求要小得多

快速阅读: 据《VentureBeat 公司》称，阿里巴巴旗下的Qwen团队推出QwQ-32B，一款320亿参数的推理模型，旨在通过强化学习提高复杂问题解决能力。该模型在Hugging Face和ModelScope上以开放权重形式提供，支持商业和研究用途。QwQ-32B通过多阶段强化学习提升了数学推理和编码能力，展现出与更大模型相当的竞争力。其高效性和灵活性使其成为企业AI策略的有力选择。

加入我们的每日和每周通讯，获取行业领先的AI最新更新和独家内容。了解详情Qwen团队，作为中国电子商务巨头阿里巴巴的一个部门，正在开发其不断扩大的开源Qwen大型语言模型（LLM）家族，推出了QwQ-32B，这是一种新的320亿参数推理模型，旨在通过强化学习（强化学习）提高在复杂问题解决任务中的性能。该模型在Hugging Face上以开放权重形式提供，并在ModelScope上以Apache 2.0许可形式提供。这意味着它可用于商业和研究用途，因此企业可以立即使用它来为其产品和应用程序提供动力（即使是那些向客户收费的应用程序）。个人用户也可以通过Qwen聊天访问它。

带有问题的全量（注：这是阿里巴巴对OpenAI原始推理模型o1的回答）QwQ，简称Qwen-问题，于2024年11月首次由阿里巴巴推出，作为一个开源推理模型，旨在与OpenAI的o1-preview竞争。在发布时，该模型设计用于增强逻辑推理和规划，在推理过程中审查和改进自己的响应，这一技术使其在数学和编码任务中特别有效。QwQ的初始版本具有320亿个参数和32,000个令牌的上下文长度，阿里巴巴强调其在数学基准测试如AIME和MATH以及科学推理任务如GPQA方面优于o1-preview。尽管有这些优势，QwQ的早期迭代在编程基准测试如LiveCodeBench方面遇到了困难，OpenAI的模型保持了优势。此外，与其他新兴推理模型一样，QwQ也面临诸如语言混合和偶尔循环推理的问题。然而，阿里巴巴决定以Apache 2.0许可发布该模型，确保开发者和企业可以自由地适应和商业化它，这与OpenAI的o1等专有替代品有所不同。

自QwQ首次发布以来，AI领域迅速发展。传统LLM的局限性变得更加明显，随着规模法则带来的性能提升逐渐减少。这种转变激发了对大型推理模型（LRMs）的兴趣——这是一种新型AI系统，利用推理时间和自我反思来提高准确性。这些包括OpenAI的o3系列和来自竞争对手中国实验室DeepSeek的DeepSeek-R1，这是香港定量分析公司High-Flyer Capital Management的分支。一份来自网络流量分析和研究公司SimilarWeb的新报告显示，自R1于2024年1月发布以来，DeepSeek已经迅速攀升成为仅次于OpenAI的最受欢迎的AI模型提供网站。信用：SimilarWeb，生成式AI全球产业趋势报告

QwQ-32B，阿里巴巴的最新迭代，通过集成强化学习和结构化自我提问，定位为推理型AI领域的有力竞争者。通过多阶段强化学习提升性能，传统的指令调优模型往往难以应对复杂的推理任务，但Qwen团队的研究表明，强化学习可以显著提高模型解决复杂问题的能力。QwQ-32B通过实施多阶段强化学习训练方法来增强数学推理、编码能力和通用问题解决能力。

该模型已针对领先替代品如DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B进行了基准测试，尽管参数较少，但仍表现出竞争力。例如，虽然DeepSeek-R1拥有6710亿个参数（激活370亿），QwQ-32B以更小的体积实现了可比性能——通常需要该模型已针对领先替代品如DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B进行了基准测试，尽管参数较少，但仍表现出竞争力。GPU上的24GB vRAM（Nvidia的H100s有80GB）相比运行完整的DeepSeek R1（16块Nvidia A100 GPU）所需的超过1500GB vRAM，突显了Qwen的强化学习方法的效率。

QwQ-32B遵循因果语言模型架构，并包含多个优化：64层Transformer，配备RoPE、SwiGLU、RMSNorm和Attention QKV偏置；带40个查询注意力头和8个键值对注意力头的广义查询注意力（GQA）；扩展的上下文长度为131,072个令牌，允许更好地处理长序列输入；多阶段训练，包括预训练、监督微调和强化学习。QwQ-32B的强化学习过程分为两个阶段：数学和编码重点：模型使用准确度验证器进行数学推理训练，并使用代码执行服务器进行编码任务。这种方法确保生成的答案在被加强之前经过验证。通用能力增强：在第二阶段，模型接收基于奖励的训练，使用通用奖励模型和基于规则的验证器。这一阶段提高了指令遵循、人类对齐和代理推理，而不会损害其数学和编码能力。

对企业决策者意味着什么

对于企业领导者——包括CEO、CTO、IT领导者、团队经理和AI应用开发者——QwQ-32B代表了AI如何支持业务决策和技术创新的一种潜在转变。凭借其强化学习驱动的推理能力，该模型可以提供更准确、结构化和情境感知的洞察力，使其在自动化数据分析、战略规划、软件开发和智能自动化等用例中具有价值。寻求部署AI解决方案以解决复杂问题、编码辅助、金融建模或客户服务自动化的公司可能会发现QwQ-32B的效率是一个吸引人的选择。此外，其开放权重可用性允许组织对其进行微调和定制，以满足特定领域的应用，而不受专有限制，使其成为企业AI策略的灵活选择。由于它来自一家中国电子商务巨头，对于一些非中国用户来说，可能会引起一些安全和偏见方面的担忧，特别是在使用Qwen聊天界面时。但正如DeepSeek-R1一样，该模型在Hugging Face上可供下载和离线使用、微调或再训练，这表明这些问题可以相对容易地克服。而且，它是DeepSeek-R1的一个可行替代品。

AI实力用户和影响者的早期反应

QwQ-32B的发布已经引起了AI研发社区的关注，几位开发者和行业专业人士在X（前身为Twitter）上分享了他们的初步印象：Hugging Face的Vaibhav Srivastav (@reach_vb) 强调了QwQ-32B在推理速度上的优势，归功于提供商Hyperbolic Labs，称其“飞快”，可与顶级模型相媲美。他还指出，该模型“在Apache 2.0许可下击败了DeepSeek-R1和OpenAI o1-mini”。AI新闻和谣言出版商Chubby (@kimmonismus) 对该模型的性能印象深刻，强调QwQ-32B有时会超越DeepSeek-R1，尽管其大小仅为后者的一小部分。“天啊！Qwen太棒了！”他们写道。Yuchen Jin (@Yuchenj_UW)，Hyperbolic Labs的联合创始人兼CTO，庆祝发布时提到效率提升。“小型模型如此强大！阿里巴巴Qwen发布了QwQ-32B，一个推理模型，击败了DeepSeek-R1（671B）和OpenAI o1-mini！”另一位Hugging Face团队成员，Erik Kaunismäki (@ErikKaum) 强调了部署的便捷性，分享说该模型可在Hugging Face端点上实现一键部署，使开发者无需大量设置即可访问。

自主能力

QwQ-32B集成了自主能力，可以根据环境反馈动态调整推理过程。为了最佳性能，Qwen团队推荐以下推理设置：

– 温度：0.6
– TopP：0.95
– TopK：20-40之间
– YaRN缩放：建议用于处理超过32,768个令牌的序列

该模型支持使用vLLM进行部署，这是一个高吞吐量推理框架。然而，当前的vLLM实现仅支持静态YaRN缩放，即无论输入长度如何都维持固定的缩放因子。

未来的发展

Qwen团队认为QwQ-32B是将强化学习扩展到增强推理能力的第一步。展望未来，团队计划：

– 进一步探索将强化学习扩展以提高模型智能；
– 将代理与强化学习结合以进行长期推理；
– 继续开发针对强化学习优化的基础模型；
– 通过更先进的训练技术迈向通用人工智能（AGI）。

借助QwQ-32B，Qwen团队将强化学习定位为下一代AI模型的关键驱动力，展示了规模扩展能够产生高性能且有效的推理系统。

VB每日商业用例洞察

如果您想给老板留下深刻印象，VB每日商业用例洞察为您提供帮助。我们为您揭秘公司如何使用生成式AI，从监管变化到实际部署，以便您分享见解以获得最大回报。现在订阅阅读我们的隐私政策感谢您的订阅。

查看更多VB通讯。

(以上内容均由Ai生成)