DeepSeek一句话引爆国产芯片市场,揭秘背后技术UE8M0 FP8
快速阅读: DeepSeek发布V3.1,采用UE8M0 FP8格式,引发市场关注,寒武纪等国产芯片企业股价大涨,半导体ETF涨幅显著,标志着国产AI加速器向软硬协同迈进。
DeepSeek 发布 V3.1 后,官方发布的一则简短留言引起 AI 圈的广泛关注:新的架构、下一代国产芯片,短短二十字的信息量巨大。受此影响,国产芯片企业的股价随之上涨,例如寒武纪今日早盘大涨近14%,总市值跃升至科创板首位。半导体 ETF 同样在半天内大涨5.89%。对于 UE8M0 FP8 和下一代国产芯片的具体含义,人们的疑问接踵而至。
在知乎上,不少专家开始科普并分析这一现象。UE8M0 FP8 是一种新型的8位浮点格式,由两部分组成:UE8M0 和 FP8。UE8M0 表示无符号的8位缩放因子,其中 E8M0 指8位全部分配给指数位。FP8 是一种将常规浮点格式压缩到8位的编码方式。MXFP8 是 Open Compute Project 在2023年发布的《Microscaling (MX) Formats Specification v1.0》中定义的8位微缩块格式,旨在通过块级缩放提高动态范围,同时保持8位位宽。
UE8M0 FP8 的优势在于,处理器只需根据缩放因子移动指数位,无需复杂的浮点运算,从而缩短时钟关键路径。此外,UE8M0 的动态范围覆盖2^(-127)到2^128,适用于大范围的数据处理。这种格式还能有效解决单尺度FP8无法兼顾大值和小值的问题,减少信息损失,保持8位张量的精度。
目前,大多数已量产的国产AI加速器仍采用FP16/BF16 + INT8的计算通路,尚未集成完整的FP8乘加单元。然而,摩尔线程MUSA 3.1 GPU、芯原VIP9000 NPU等2025下半年即将推出的新款国产芯片已经开始宣传支持“原生 FP8”或“Block FP8”,并与 DeepSeek、华为等15家厂商联合验证UE8M0格式。
尽管下一代国产芯片在HBM/LPPDDR带宽方面仍与顶尖芯片存在差距,但UE8M0通过节省带宽,成为下一代架构的重要优化方向。DeepSeek 开源的5.6k星标项目FP8 GEMM内核 DeepGEMM 已支持UE8M0,但主要适配英伟达芯片和CUDA生态。
关于 DeepSeek 优化的国产芯片,网友们纷纷猜测。首批通过“DeepSeek大模型适配”的8家厂商中,寒武纪被视为最有可能的“头号种子选手”。寒武纪的 MLU370-S4、思元590 及最新690系列芯片均支持FP8计算,在架构设计和低精度计算优化上处于领先地位。此外,海光、沐曦、中昊芯英、摩尔线程等厂商也被认为有潜力支持UE8M0 FP8。
市场对此反应热烈,今日国产芯片概念集体高开,科创50大涨3%,创下近三年半新高,芯片产业链整体走强。支持UE8M0 FP8 的国产芯片意味着国产AI正走向软硬协同阶段,减少对外部算力的依赖。这不仅提升了国产芯片的性价比,还通过软硬协同构建了统一的生态坐标系,类似于当年的“Wintel联盟”。
官方在发布 DeepSeek V3.1 时,仅在功能更新介绍后简要提及使用了UE8M0 FP8 Scale的参数精度,这一细节最初并未引起广泛关注。直到官方在评论区补充说明,才引发了市场的强烈反响。
(以上内容均由Ai生成)