深求索发布DeepSeek-V3.2,创新稀疏注意力架构降低成本提升性能
快速阅读: 中国AI公司深度求索发布DeepSeek-V3.2系列模型,引入创新稀疏注意力机制,推理速度提升2-3倍,API成本下降超50%,性能比肩GPT-5。
12月1日,中国人工智能初创公司深度求索(DeepSeek AI)发布了DeepSeek-V3.2系列模型。该系列包括标准版DeepSeek-V3.2和高性能增强版DeepSeek-V3.2-Speciale。新模型引入了创新的稀疏注意力机制(DSA)及强化的代理能力,旨在挑战全球顶级AI模型,如OpenAI的GPT-5和Google的Gemini3.0Pro。
DeepSeek-V3.2系列的核心优势在于其独特的DeepSeek稀疏注意力(DSA)架构。这一机制首次实现了细粒度的稀疏注意力,有效降低了长文本处理时的计算复杂度和内存消耗,同时保持了与密集注意力模型相近的性能水平。这项技术革新使得长文本任务的推理速度提高了2到3倍。
此外,官方宣布API成本显著下降,价格下调超过50%。DeepSeek-V3.2定位为“代理优先”的模型,重点在于将深度推理能力和工具使用流程紧密结合。该模型通过大规模代理任务合成流水线训练,增强了在实际应用场景中的泛化能力。新引入的“思考模式”允许模型在执行复杂任务前进行逻辑推理,从而提高了解决问题的准确性和效率。在多项代理评估测试中,V3.2达到了开源模型中的顶尖水平。
此次发布的两个主要版本分别为:DeepSeek-V3.2,已上线于深度求索的网页端、App及API服务,适合日常推理助手和开发任务;DeepSeek-V3.2-Speciale,专注于极限推理能力,目前仅通过临时API服务提供。官方报告显示,Speciale版本在某些高难度推理任务上的表现超越了GPT-5,并在2025年的国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)竞赛中取得了金牌级别的成绩。
深度求索已在Hugging Face平台上开放了V3.2模型的权重,并提供了相关开源内核和演示代码,支持研究者和企业进行商业部署。分析人士认为,DeepSeek V3.2的发布标志着AI行业在融合深度推理与实际工具操作的模型方面迈出了重要一步,进一步缩小了开源模型与封闭源码巨头之间的差距。开发者可查阅DeepSeek API文档以获取更多技术详情和使用指南。
(以上内容均由Ai生成)