DeepSeek发布V3.2,推理能力比肩GPT-5
快速阅读: DeepSeek发布新模型V3.2及Speciale版,强化智能体能力与推理,性能接近Gemini-3.0-Pro,显著减少计算开销,提升泛化能力,广泛应用于问答、推理测试等领域。
国产大模型风向标DeepSeek再次推出重磅新模型,重点强化智能体能力,并融入思考和推理过程。12月1日,DeepSeek发布了两个正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。官方网页端、App和API均已更新至正式版DeepSeek-V3.2,而Speciale版本目前仅以临时API服务形式提供,用于社区评测与研究。
DeepSeek-V3.2旨在平衡推理能力和输出长度,适用于日常使用场景,如问答和通用智能体任务。在公开的推理类基准测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相较于Kimi-K2-Thinking,V3.2的输出长度显著缩短,有效减少了计算开销和用户等待时间。
据DeepSeek介绍,DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致。V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。DeepSeek-V3.2具备指令跟随、数学证明和逻辑验证能力,在主流推理基准测试中的表现可与Gemini-3.0-Pro媲美。
与以往版本不同,DeepSeek-V3.2首次实现了在思考模式下调用工具的功能,同时支持思考模式和非思考模式下的工具调用。该模型还提出了一种大规模智能体训练数据合成方法,在智能体评测中达到了当前开源模型的最高水平,显著缩小了开源模型与闭源模型之间的差距。值得注意的是,V3.2并未对这些测试集的工具进行特殊训练,因此在实际应用中展现出较强的泛化能力。
在评测成绩方面,DeepSeek-V3.2-Speciale在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)和IOI 2025(国际信息学奥林匹克)中均获得了金牌。其中,ICPC和IOI的成绩分别达到了人类选手第二名和第十名的水平。
DeepSeek指出,在高度复杂的任务上,Speciale模型显著优于标准版本,但消耗的Token数量更多,成本更高。目前,DeepSeek-V3.2-Speciale主要用于研究,不支持工具调用,尚未针对日常对话和写作任务进行专门优化。
DeepSeek作为大模型的风向标,其一举一动都受到行业的广泛关注。最近,网易有道词典发布了2025年度词汇——“deepseek”,以8672940次年度搜索量成功当选。有道词典负责人表示,“deepseek”在词典内的搜索曲线呈现出明显的爆发趋势,自年初因“低成本”突破算力封锁以来,每次重要进展都会带动搜索量的上升。
(以上内容均由Ai生成)