AMD联手IBM发布14T tokens训练的ZAYA1大模型,性能比肩Qwen3
快速阅读: AMD、IBM与Zyphra联合发布ZAYA1,全球首款全程基于AMD硬件训练的MoE模型,预训练14万亿tokens,性能媲美Qwen3,计划2026年推新版本。
AMD与IBM及AI初创公司Zyphra联合发布ZAYA1——这是全球首款全程基于AMD硬件训练的MoE基础模型,预训练了14万亿个tokens,其综合性能与Qwen3系列相当,未经指令微调的数学/STEM推理能力接近Qwen3专业版。
训练规模方面,使用了IBM Cloud的128个节点,每个节点配备8张AMD Instinct MI300X加速卡,总计1024张卡,通过Infinity Fabric和ROCm技术,实现了750PFLOPs的峰值性能。数据集包含14万亿个tokens,采用从通用网页到数学、代码和推理的课程学习方法。后续还将发布经过进一步训练的版本。
架构创新方面,ZAYA1采用了CCA注意力机制,即卷积加压缩嵌入注意力头,这使得显存占用减少了32%,长上下文吞吐量提高了18%。此外,线性路由MoE技术通过细化专家粒度和负载均衡正则化,提升了Top-2路由精度2.3个百分点,在稀疏度达到70%时仍能保持高利用率。
基准测试结果显示,ZAYA1-Base(非指令版)在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准测试中表现与Qwen3-Base持平;在CMATH和OCW-Math上更是显著超越,展示了其在STEM领域的潜力。Zyphra透露,计划于2026年第一季度推出指令和RLHF版本,并开放API及权重下载。
AMD表示,此次合作证明了MI300X加ROCm在大规模MoE训练中的可行性,未来将与更多云服务提供商合作推广“纯AMD”集群方案,目标是在2026年训练超过1000亿参数的MoE模型时,实现与NVIDIA方案的总拥有成本持平。
(以上内容均由Ai生成)