DeepSeek一句话引爆国产芯片市场，揭秘背后技术UE8M0 FP8

发布时间：2025年8月24日来源：szf

快速阅读: DeepSeek发布V3.1，采用UE8M0 FP8格式，引发市场关注，寒武纪等国产芯片企业股价大涨，半导体ETF涨幅显著，标志着国产AI加速器向软硬协同迈进。

DeepSeek 发布 V3.1 后，官方发布的一则简短留言引起 AI 圈的广泛关注：新的架构、下一代国产芯片，短短二十字的信息量巨大。受此影响，国产芯片企业的股价随之上涨，例如寒武纪今日早盘大涨近14%，总市值跃升至科创板首位。半导体 ETF 同样在半天内大涨5.89%。对于 UE8M0 FP8 和下一代国产芯片的具体含义，人们的疑问接踵而至。

在知乎上，不少专家开始科普并分析这一现象。UE8M0 FP8 是一种新型的8位浮点格式，由两部分组成：UE8M0 和 FP8。UE8M0 表示无符号的8位缩放因子，其中 E8M0 指8位全部分配给指数位。FP8 是一种将常规浮点格式压缩到8位的编码方式。MXFP8 是 Open Compute Project 在2023年发布的《Microscaling (MX) Formats Specification v1.0》中定义的8位微缩块格式，旨在通过块级缩放提高动态范围，同时保持8位位宽。

UE8M0 FP8 的优势在于，处理器只需根据缩放因子移动指数位，无需复杂的浮点运算，从而缩短时钟关键路径。此外，UE8M0 的动态范围覆盖2^(-127)到2^128，适用于大范围的数据处理。这种格式还能有效解决单尺度FP8无法兼顾大值和小值的问题，减少信息损失，保持8位张量的精度。

目前，大多数已量产的国产AI加速器仍采用FP16/BF16 + INT8的计算通路，尚未集成完整的FP8乘加单元。然而，摩尔线程MUSA 3.1 GPU、芯原VIP9000 NPU等2025下半年即将推出的新款国产芯片已经开始宣传支持“原生 FP8”或“Block FP8”，并与 DeepSeek、华为等15家厂商联合验证UE8M0格式。

尽管下一代国产芯片在HBM/LPPDDR带宽方面仍与顶尖芯片存在差距，但UE8M0通过节省带宽，成为下一代架构的重要优化方向。DeepSeek 开源的5.6k星标项目FP8 GEMM内核 DeepGEMM 已支持UE8M0，但主要适配英伟达芯片和CUDA生态。

关于 DeepSeek 优化的国产芯片，网友们纷纷猜测。首批通过“DeepSeek大模型适配”的8家厂商中，寒武纪被视为最有可能的“头号种子选手”。寒武纪的 MLU370-S4、思元590 及最新690系列芯片均支持FP8计算，在架构设计和低精度计算优化上处于领先地位。此外，海光、沐曦、中昊芯英、摩尔线程等厂商也被认为有潜力支持UE8M0 FP8。

市场对此反应热烈，今日国产芯片概念集体高开，科创50大涨3%，创下近三年半新高，芯片产业链整体走强。支持UE8M0 FP8 的国产芯片意味着国产AI正走向软硬协同阶段，减少对外部算力的依赖。这不仅提升了国产芯片的性价比，还通过软硬协同构建了统一的生态坐标系，类似于当年的“Wintel联盟”。

官方在发布 DeepSeek V3.1 时，仅在功能更新介绍后简要提及使用了UE8M0 FP8 Scale的参数精度，这一细节最初并未引起广泛关注。直到官方在评论区补充说明，才引发了市场的强烈反响。

(以上内容均由Ai生成)