最新的阿里巴巴 AI 模型演示 AI 改进

发布时间：2025年3月8日来源：szf

快速阅读: 据《计算机周刊》称，两个月前，科技界被深度搜索-R1人工智能模型颠覆后，阿里云推出了QwQ-32B，一个仅使用320亿参数但性能与更大模型相当的开源大语言模型。阿里云称QwQ-32B在数学推理和编程技能上有显著提升，通过强化学习增强推理能力。阿里表示，结合更强的基础模型与规模化计算资源驱动的强化学习，有助于实现通用人工智能（AGI）。

就在科技界被深度搜索-R1人工智能模型颠覆两个月后，阿里云推出了QwQ-32B，一个开源的大规模语言模型（LLM）。这家中国云计算巨头将新模型描述为“紧凑推理模型”，仅使用320亿参数，却能提供与其他使用更多参数的大型语言人工智能模型相当的性能。在网站上，阿里云发布了性能基准测试，表明新模型与来自深度搜索和OpenAI的人工智能模型相当。这些基准测试包括AIM-E 24（数学推理）、Live CodeBench（编程技能）、LiveBench（测试集污染及客观评估）、IFEval（指令执行能力）以及BFCL（工具和功能调用能力）。通过使用连续强化学习（RL）扩展，阿里声称QwQ-32B模型在数学推理和编程技能方面有显著提升。在一篇博客文章中，该公司表示QwQ-32B模型使用了320亿参数，其性能可与使用6710亿参数的深度搜索-R1相媲美。阿里表示，这显示了当应用于基于广泛世界知识进行预训练的强大基础模型时，强化学习的有效性。通过使用连续强化学习（RL）扩展，阿里声称QwQ-32B模型在数学推理和编程技能方面有显著提升。“我们已经将代理相关的能力整合到推理模型中，使其能够利用工具进行批判性思考，并根据环境反馈调整推理过程。”阿里在博客文章中表示。阿里表示，QwQ-32B展示了通过强化学习（RL）增强推理能力的有效性。通过这种人工智能训练方法，强化学习人工智能代理能够感知和解释其环境，采取行动并通过试错学习。强化学习是开发人员用于训练机器学习系统的方法之一。阿里使用RL使其模型更加高效。“我们不仅见证了规模化RL的巨大潜力，也认识到预训练语言模型中的未开发可能性。”阿里表示。“随着我们致力于开发下一代Qwen，我们相信结合更强大的基础模型与由规模化计算资源驱动的RL，将使我们更接近实现通用人工智能[AGI]。”阿里表示，它正在积极探索将代理与RL结合，以实现所谓的‘长期推理’，据阿里称，这最终将导致更大的智能，在推理时间上呈比例增长。QwQ-32B模型使用了一般奖励模型和基于规则的验证器提供的奖励进行训练，增强了其一般能力。据阿里称，这些能力包括更好的指令执行、与人类偏好的一致性以及改进的代理性能。自今年年初起在中国一直可用的深度搜索展示了RL的有效性，其R1大规模语言模型可以在不依赖最新GPU硬件的情况下与美国的人工智能相匹敌。阿里云的QwQ-32B模型同样使用RL并非巧合。美国已禁止向中国出口高端AI加速芯片——例如英伟达H100图形处理器——这意味着中国的人工智能开发者不得不寻找替代方法来让他们的模型运行。使用RL似乎能达到与OpenAI等模型相当的基准表现。QwQ-32B模型有趣之处在于，它使用显著较少的参数就能达到与深度搜索相似的结果，这意味着它应该能在性能较低的AI加速硬件上运行。了解更多关于强化学习的信息阿里云的新模型相比深度搜索更为开放：该人工智能实验室于11月发布了图卢3。新的405B版本使用了可验证奖励的强化学习进行训练，技术上极具挑战性。深度强化学习模型旨在定制适应性治疗方案，可以使前列腺癌患者的进展时间翻倍。

(以上内容均由Ai生成)