DeepSeek一句话引爆国产芯片市场,UE8M0 FP8技术引关注
快速阅读: DeepSeek发布V3.1版本,采用UE8M0 FP8技术优化国产芯片性能,引发市场关注,寒武纪等国产芯片企业股价大涨,半导体ETF涨幅达5.89%。
DeepSeek 发布 V3.1 版本后,官方的一则简短留言引发了 AI 圈的广泛关注:新的架构、下一代国产芯片,短短不到 20 字的信息量巨大。国产芯片企业的股价随之上涨,例如寒武纪今日早盘盘中大涨近 14%,总市值跃居科创板首位。半导体 ETF 同样在半天内大涨 5.89%。
人们纷纷对 UE8M0 FP8 和下一代国产芯片提出疑问。知乎上,许多专业人士开始科普并分析这一现象。让我们从 UE8M0 FP8 的概念开始了解。
UE8M0 FP8 是一个由两部分组成的概念。前面的 UE8M0 是 MXFP8 路径中的“缩放因子”。MXFP8 是 Open Compute Project 在 2023 年发布的《Microscaling (MX) Formats Specification v1.0》中定义的 8 位微缩块格式。Open Compute Project 是 2011 年由 Facebook(现 Meta)、英特尔、Rackspace 等公司联合发起的开源硬件协作计划,旨在通过共享数据中心及服务器设计提升行业效率。成员包括微软、谷歌、亚马逊、AMD、英伟达等国际巨头,以及国内的阿里、腾讯、百度等企业。
MXFP8 以 FP8 为基础,FP8 是一种将常规浮点格式压缩到 8 位的编码方式。MXFP8 的核心思想是将张量切分为固定长度的“块”,每个块单独指定一个 2 的整数次幂作为“缩放因子”,将块内所有数值除以该系数后再转换为 FP8。这种块级缩放方式使 MXFP8 保留了 8 位位宽,同时将动态范围扩展了几十倍。“缩放因子”包含 8 位,包括符号位、指数位和尾数位,开发者可以自行分配这 8 位。UE8M0 表示无符号,8 个位全部分配给指数位。
采用全指数表示缩放因子的方式有诸多好处。首先,UE8M0 不含尾数与符号位,处理器在根据缩放因子复原数据时,只需移动指数位,无需浮点乘法、规格化或舍入逻辑,从而缩短时钟关键路径。UE8M0 的动态范围覆盖 2^(-127) 到 2^128,为后续块缩放提供了充足空间。此外,UE8M0 解决了单尺度 FP8 无法同时顾及大/小值的问题,显著减少了信息损失。
大部分已量产的国产 AI 加速器仍采用 FP16/BF16 + INT8 的计算通路,未集成 E4M3/E5M2 等完整的 FP8 乘加单元。然而,摩尔线程 MUSA 3.1 GPU、芯原 VIP9000 NPU 等 2025 年下半年推出的新款国产芯片已在宣传资料中列出了“原生 FP8”或“Block FP8”支持,并与 DeepSeek、华为等 15 家厂商联合验证 UE8M0 格式。尽管下一代国产芯片在 HBM/LPPDDR 带宽方面仍与顶尖芯片存在差距,但 UE8M0 通过节省带宽,被视为下一代架构的重要优化方向。
DeepSeek 为哪个国产芯片做了优化?网友们纷纷猜测 DeepSeek 所指的国产芯片。首批通过“DeepSeek 大模型适配”的 8 家厂商中,寒武纪被看好。截至今日 10:25,寒武纪盘中大涨近 14%,总市值超 4940 亿元,跃居科创板首位。寒武纪的 MLU370-S4、思元 590 及最新 690 系列芯片均支持 FP8 计算,在架构设计和低精度计算优化上领先。海光、沐曦、中昊芯英、摩尔线程等也被点名,海光的深算三号 DCU 支持 FP8 计算,沐曦的曦云 C600 支持 FP8 精度计算,中昊芯英的“刹那”TPU AI 芯片支持 FP8 精度,摩尔线程的 MTT S5000 支持 FP8 精度计算。
华为昇腾虽然目前不支持原生 FP8,但官方路线图显示 2025 年第四季度将支持原生 FP8,预计 2026 年推出的 910D 有可能成为“下一代芯片”。
国产芯片概念集体高开,科创 50 大涨 3%,创近三年半新高,芯片产业链集体走强。这些国产芯片一旦支持 UE8M0 FP8,意味着国产 AI 正走向软硬协同阶段,减少对英伟达、AMD 等国外算力的依赖。UE8M0 FP8 的优势在于更小的带宽、更低的功耗和更高的吞吐,使得相同硬件能运行更大模型,提升国产芯片的性价比。DeepSeek 通过调整精度格式,主动贴合国产芯片的最佳性能点,形成统一的生态坐标系,类似于当年的“Wintel 联盟”。
官方在功能更新介绍后提到,DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度。这一信息藏在一大段功能更新介绍之后,若非官方在评论区补充说明,可能不会引起太多关注。
(以上内容均由Ai生成)