富士康推出 FoxBrain——中国 AI 模型,准备开源发布
快速阅读: 《印度分析杂志》消息,鸿海研究院发布了名为FoxBrain的大型中文语言模型,旨在支持智能制造、智能电动汽车和智慧城市。FoxBrain基于Meta的Llama 3.1架构,拥有700亿参数,训练仅用四周时间。它将在未来开源,并在NVIDIA GTC大会上展示其性能。FoxBrain在数学和逻辑推理方面优于相同规模的Llama-3-台湾-70B模型。
鸿海研究院,鸿海科技集团(富士康)的研究中心,于周一发布了代号为FoxBrain的传统中文大型语言模型(LLM)。FoxBrain最初是为内部集团应用设计的,但将成为富士康三大平台:智能制造、智能电动汽车和智慧城市的重要引擎。它最初是为集团内部系统开发的,支持数据分析、决策支持、文档协作、数学、推理、问题解决和代码生成。该模型未来将开源并公开分享。研究所指出,这是台湾AI技术的一个里程碑,仅用四周时间就完成了高效且成本较低的模型训练方法。使用了120块NVIDIA H100 GPU,并借助NVIDIA Quantum-2 InfiniBand网络进行扩展,FoxBrain的快速训练过程成为可能。在训练过程中,NVIDIA通过台北一号超级计算机和专业技术咨询提供了帮助。该模型基于Meta的Llama 3.1架构,拥有700亿参数,并具有128k令牌的上下文窗口长度。据说,采用了独特的自适应推理反射技术,以增强模型的自主推理能力。“近几个月来,深化推理能力和高效利用GPU逐渐成为AI领域的主流发展方向。我们的FoxBrain模型采用了一种非常高效的训练策略,专注于优化训练过程而非盲目增加计算量,”鸿海研究院人工智能研究中心主任李永辉表示。“通过精心设计的训练方法和资源优化,我们成功建立了一个具备强大推理能力的本地化AI模型。”
该研究所提到,其性能接近世界领先标准,但在某些方面略逊于DeepSeek的蒸馏模型。研究所声明,与相同规模的Llama-3-台湾-70B相比,FoxBrain在数学和逻辑推理任务上表现更出色。然而,FoxBrain的结果将于2025年3月20日在NVIDIA GTC大会上的“从开源到前沿AI:构建、定制和扩展基础模型”会议演讲中公布。
(以上内容均由Ai生成)