深求索发布DeepSeek-V3.2，创新稀疏注意力架构降低成本提升性能

发布时间：2025年12月2日来源：szf

快速阅读: 中国AI公司深度求索发布DeepSeek-V3.2系列模型，引入创新稀疏注意力机制，推理速度提升2-3倍，API成本下降超50%，性能比肩GPT-5。

12月1日，中国人工智能初创公司深度求索（DeepSeek AI）发布了DeepSeek-V3.2系列模型。该系列包括标准版DeepSeek-V3.2和高性能增强版DeepSeek-V3.2-Speciale。新模型引入了创新的稀疏注意力机制（DSA）及强化的代理能力，旨在挑战全球顶级AI模型，如OpenAI的GPT-5和Google的Gemini3.0Pro。

DeepSeek-V3.2系列的核心优势在于其独特的DeepSeek稀疏注意力（DSA）架构。这一机制首次实现了细粒度的稀疏注意力，有效降低了长文本处理时的计算复杂度和内存消耗，同时保持了与密集注意力模型相近的性能水平。这项技术革新使得长文本任务的推理速度提高了2到3倍。

此外，官方宣布API成本显著下降，价格下调超过50%。DeepSeek-V3.2定位为“代理优先”的模型，重点在于将深度推理能力和工具使用流程紧密结合。该模型通过大规模代理任务合成流水线训练，增强了在实际应用场景中的泛化能力。新引入的“思考模式”允许模型在执行复杂任务前进行逻辑推理，从而提高了解决问题的准确性和效率。在多项代理评估测试中，V3.2达到了开源模型中的顶尖水平。

此次发布的两个主要版本分别为：DeepSeek-V3.2，已上线于深度求索的网页端、App及API服务，适合日常推理助手和开发任务；DeepSeek-V3.2-Speciale，专注于极限推理能力，目前仅通过临时API服务提供。官方报告显示，Speciale版本在某些高难度推理任务上的表现超越了GPT-5，并在2025年的国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）竞赛中取得了金牌级别的成绩。

深度求索已在Hugging Face平台上开放了V3.2模型的权重，并提供了相关开源内核和演示代码，支持研究者和企业进行商业部署。分析人士认为，DeepSeek V3.2的发布标志着AI行业在融合深度推理与实际工具操作的模型方面迈出了重要一步，进一步缩小了开源模型与封闭源码巨头之间的差距。开发者可查阅DeepSeek API文档以获取更多技术详情和使用指南。

(以上内容均由Ai生成)