DeepSeek更新,国产芯片集体大涨
快速阅读: DeepSeek推出V3.1版本,采用混合推理架构和UE8M0 FP8参数精度,大幅提升推理效率和成本效益,减少对国外算力依赖,引发资本市场积极响应,国产芯片概念股应声上涨。
DeepSeek 推出 V3.1 版本,官方一条简短消息引发 AI 行业热议。新架构与下一代国产芯片的结合,预示着国产 AI 正迈向软硬件协同阶段,未来有望减少对英伟达、AMD 等国外算力的依赖。
此次更新打破“性能越高成本越贵”的行业魔咒,金融、医疗等高算力应用场景的想象空间大幅扩展。资本市场迅速作出反应,DeepSeek 宣布更新后,国产芯片概念股应声上涨,每日互动尾盘直线拉升,收盘大涨 13.62%。有网友戏言,国产芯片迎来史诗级暴涨,DeepSeek 一句话带动周五股市冲上 3800 点。
DeepSeek 官方低调发布 V3.1 版本,未进行大规模宣传。V3.1 最核心的创新在于其混合推理架构——Hybrid Reasoning Architecture。该架构支持思考模式和非思考模式,用户可以自由切换,既可详细分析,也能快速得出结果。
此前,DeepSeek 的产品线分工明确:V3 模型擅长通用对话,R1 模型侧重深度思考。这种分离式架构虽各有所长,但用户需频繁切换。如今,V3.1 将通用对话、复杂推理、专业编程等多种核心功能集成在同一模型中,提升了使用灵活性和效率。
此外,V3.1 的推理效率显著提升。官方数据显示,在思考模式下,V3.1 在各项任务中的平均表现与前代顶级 R1-0528 持平,但输出的 token 数量减少了 20% 至 50%。非思考模式下,输出长度缩短,但性能不打折扣。这得益于“思维链压缩”技术,模型在训练阶段学会生成更简洁、高效的推理路径,确保答案准确。
为何要这样做?很简单,为了降低成本。过去,思维链虽然增强模型推理能力,但冗长的中间步骤导致高昂的计算成本和 API 调用费用,难以大规模应用。V3.1 的思维链压缩技术解决了这一问题,将高级 AI 推理能力从学术工具转变为经济可行的商业解决方案。
社区测试显示,DeepSeek V3.1 在 Aider 多语言编程测试中的得分超过 Claude 4 Opus,且成本更低。开发者纷纷点赞,Hugging Face 上的热度持续上升。
值得注意的是,DeepSeek V3.1 采用 UE8M0 FP8 参数精度,并对分词器和聊天模板进行了调整,与之前的 V3 版本有显著差异。FP8 将普通浮点数压缩为 8 位存储,节省空间和算力。MXFP8 的“块缩放”技术将数据分块,每块使用独立的缩放系数,既保留信息又节省资源。
UE8M0 中的 U、E、M 分别代表“无符号 + 指数 + 尾数”。UE8M0 用 8 位全表示指数,没有尾数和符号位,处理器还原数据时只需移动指数位,无需复杂乘法,速度快、路径短。这种格式动态范围广,能同时表示极大和极小的数,不易溢出或归零,确保 8 位张量精度的同时,将信息损失降至最低。
这一技术特别适合新一代国产芯片。目前,大多数国产 AI 芯片仍使用 FP16/INT8,无法原生支持 FP8。新一代芯片如摩尔线程 MUSA 3.1 GPU 和芯原 VIP9000 NPU 开始支持原生 FP8,与 DeepSeek V3.1 的 UE8M0 格式完美匹配。UE8M0 FP8 使模型在新一代国产芯片上运行更省空间、更快、更稳定,同时保持精度,为国产 AI 带来低成本、高性能的新机遇。
更新后,DeepSeek 官网确认“深度思考”功能已升级。推特上有博主分析,新模型生成的小球跳动效果更符合物理定律,可调节重力、摩擦、旋转速度和弹跳参数。还有用户用 V3.1 制作振动编码,甚至绘制自画像,风格独特。
尽管如此,部分用户仍对翻译和写作功能提出批评,认为 SYSTEM PROMPT 需要现场编写指令,中英混杂和错词现象时有发生。感兴趣的用户可以登录官网自行体验。每次 DeepSeek 的更新都令人期待,几乎成为国产 AI 的精神图腾,期待 DeepSeek R2 的到来。
(以上内容均由Ai生成)