英伟达力推开源AI模型

发布时间：2025年12月17日来源：szf

快速阅读: 据英伟达消息，该公司近日推出新一代Nemotron 3开源大模型系列，采用混合Mamba-Transformer架构与稀疏激活混合专家机制，显著提升推理效率并降低内存占用，以强化其AI软硬件全栈整合战略。

近日，英伟达公司进一步加码开源人工智能模型布局，正式推出新一代Nemotron 3系列模型。此举被视为其推进AI软硬件全栈整合战略的关键一步。

受全球AI竞争加剧影响，OpenAI、Anthropic和谷歌等主流闭源模型厂商持续扩大技术优势。在此背景下，Meta平台公司也被曝考虑转向闭源模型“Avocado”，而英伟达则坚定推进开源路线。依托自身强大的AI硬件业务，该公司能以极低成本获取大规模训练集群，不仅向市场免费提供模型，还以每GPU每年4500美元的相对低廉价格提供AI Enterprise软件栈支持。

英伟达并非首次涉足开源AI。早在2019年，其便推出参数规模达80亿的Megatron-LM模型；2021年，通过与微软合作，将参数量提升至5300亿。同期发布的NeMo工具包成为后续Nemotron系列的基础开发平台。2024年6月，初代Nemotron-4模型问世，参数规模达3400亿；随后推出的Nemotron 1融合Llama 3.1基础模型与自有推理技术，覆盖80亿至2350亿参数的多个版本。

今年早些时候发布的Nemotron 2 Nano引入混合架构，结合谷歌Transformer与卡内基梅隆大学等机构提出的Mamba状态空间方法，兼顾大数据特征提取与小数据精准推理。最新发布的Nemotron 3则采用混合专家（MoE）架构，专为多智能体系统设计，进一步提升推理效率。

据英伟达企业生成式AI软件副总裁卡里·布里斯基介绍，过去两年半，全球开源AI框架与模型下载量约达3.5亿次，目前约六成企业使用开源AI工具。2025年，英伟达已成为Hugging Face平台最大开源贡献者，累计发布650个开源模型及250个数据集。

新发布的Nemotron 3大模型家族采用混合Mamba-Transformer架构，显著提升运行效率并降低内存占用。布里斯基表示，该架构避免为每个词元生成庞大的注意力图和键值缓存，从而大幅减少内存消耗，使模型可容纳更多专家模块。

目前，Nemotron 3家族包含Nano、Super和Ultra三个版本。其中，Nano版拥有300亿参数，推理时仅激活30亿，专为单张NVIDIA L40S GPU设计；Super版参数规模达1000亿，最多激活100亿；Ultra版则高达5000亿参数，同时激活500亿。三者均采用稀疏激活的混合专家机制，在保持高性能的同时有效控制计算资源消耗。

与上一代Nemotron 2 Nano主要依赖监督学习不同，Nemotron 3大幅增加强化学习比重，并支持最长100万词元的上下文窗口。此外，Super和Ultra版本将引入“潜在混合专家”（Latent MoE）技术——各专家共享核心计算层，仅保留少量私有参数，类似多位厨师共用厨房但各自拥有专属调料架。该设计可在同等推理性能下支持四倍数量的专家，进一步提升模型智能水平。

Nemotron 3还具备多词元预测能力，并在NVFP4 4位精度下完成预训练，训练数据规模达25万亿词元。初步基准测试显示，Nemotron 3 Nano在推理吞吐量和准确性方面均显著优于前代产品。目前仅Nano版本公开可用，未来是否通过AI Enterprise提供技术支持尚待公布。

(以上内容均由Ai生成)

引用自：The Next Platform网站