AI 硬件

AMD联手IBM发布14T tokens训练的ZAYA1大模型，性能比肩Qwen3

发布时间：2025年11月25日来源：szf

AMD联手IBM发布14T tokens训练的ZAYA1大模型，性能比肩Qwen3

快速阅读: AMD、IBM与Zyphra联合发布ZAYA1，全球首款全程基于AMD硬件训练的MoE模型，预训练14万亿tokens，性能媲美Qwen3，计划2026年推新版本。

AMD与IBM及AI初创公司Zyphra联合发布ZAYA1——这是全球首款全程基于AMD硬件训练的MoE基础模型，预训练了14万亿个tokens，其综合性能与Qwen3系列相当，未经指令微调的数学/STEM推理能力接近Qwen3专业版。

训练规模方面，使用了IBM Cloud的128个节点，每个节点配备8张AMD Instinct MI300X加速卡，总计1024张卡，通过Infinity Fabric和ROCm技术，实现了750PFLOPs的峰值性能。数据集包含14万亿个tokens，采用从通用网页到数学、代码和推理的课程学习方法。后续还将发布经过进一步训练的版本。

架构创新方面，ZAYA1采用了CCA注意力机制，即卷积加压缩嵌入注意力头，这使得显存占用减少了32%，长上下文吞吐量提高了18%。此外，线性路由MoE技术通过细化专家粒度和负载均衡正则化，提升了Top-2路由精度2.3个百分点，在稀疏度达到70%时仍能保持高利用率。

基准测试结果显示，ZAYA1-Base（非指令版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准测试中表现与Qwen3-Base持平；在CMATH和OCW-Math上更是显著超越，展示了其在STEM领域的潜力。Zyphra透露，计划于2026年第一季度推出指令和RLHF版本，并开放API及权重下载。

AMD表示，此次合作证明了MI300X加ROCm在大规模MoE训练中的可行性，未来将与更多云服务提供商合作推广“纯AMD”集群方案，目标是在2026年训练超过1000亿参数的MoE模型时，实现与NVIDIA方案的总拥有成本持平。

(以上内容均由Ai生成)

关键词： Amd Ibm Qwen3 ZAYA1 性能