AI

腾讯开源WeChat-YATT,破解多模态训练瓶颈

发布时间:2025年8月19日    来源:szf
腾讯开源WeChat-YATT,破解多模态训练瓶颈

快速阅读: 腾讯发布WeChat-YATT大模型训练库,专注强化学习和多模态模型,解决分布式训练瓶颈,提升效率和资源利用率,助力多模态和强化学习创新。

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT,内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练,致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。

WeChat-YATT通过定制化的并行计算策略,有效处理大尺寸模型、长序列输入和大数据集等复杂场景,成功解决了微信内部多个实际业务场景的关键痛点,显著提升了大模型训练效率。该工具为研究人员和开发者提供了灵活且可扩展的技术方案,有望推动多模态和强化学习领域的创新发展。

WeChat-YATT重点解决了大模型分布式训练过程中的两大核心技术瓶颈。首先,在多模态场景下,随着图像、视频等多模态数据规模的增长,传统架构中由单一控制器进行数据管理的方式容易成为通信和内存瓶颈,导致系统吞吐量受限,甚至引发训练流程异常中断。WeChat-YATT通过引入并行控制器的并行管理机制,有效分散了系统压力,大幅提升了系统的可扩展性和稳定性,更好地应对多模态、大数据量的复杂应用场景。

其次,在动态采样与生成式奖励计算中,模型频繁切换和“长尾”任务容易产生大量额外开销,导致GPU算力无法充分利用,严重影响整体训练效率。WeChat-YATT通过部分共存策略和异步交互机制,大幅减轻了模型切换损耗和长尾任务的影响,实现了训练过程中的高吞吐量和高资源利用率,更好地支持大规模RLHF任务的高效迭代。

针对不同业务场景的需求,WeChat-YATT支持全员共存和部分共存两种资源放置模式,最大化提升集群资源利用率。全员共存模式采用串行调度机制,Actor Rollouts、GenRM与Train依次串行执行。每个角色完成任务后主动释放计算资源,系统随即加载下一个任务所需模型。该策略适用于绝大多数常规训练场景。在每个阶段,相关组件均可独占全部GPU资源,这极大缩短了资源空闲“气泡”时间,显著提升总体训练吞吐量和效率。

部分共存模式下,Actor Rollouts与GenRM独立部署,并通过异步方式高效交互。Actor训练阶段占用全部GPU资源,在Rollouts生成阶段释放GPU资源并唤醒Actor Rollouts及GenRM两大组件协同工作。系统通过动态负载评估进行资源分配与均衡,当Rollouts生成完毕后,这两者释放资源,Actor随之重新加载到GPU上进入下一轮训练流程。部分共存模式特别适合Rollouts与GenRM需要高频交互、动态采样的复杂任务场景。

WeChat-YATT还具备多项技术特色。在内存利用方面,项目采用并行控制器架构,有效降低了单节点内存消耗,更适合多模态场景下的大模型训练,提升了系统扩展性和稳定性。在GenRM支持方面,针对生成式奖励模型场景实现了不同的资源放置策略,用户可根据具体场景选择最优的训练方案。

智能检查点策略是另一大亮点。WeChat-YATT支持异步Checkpoint保存,并针对微信业务场景特点,根据调度流程实现断点自动保存,进一步保障了训练安全性和高可用性。此外,系统在训练过程中实现了各个数据并行组间的负载均衡,有效减少资源空闲时间,显著提升整体训练吞吐量。

这一训练库的发布标志着腾讯在大模型技术基础设施建设方面取得重要进展,也为业界提供了处理复杂多模态训练场景的有效解决方案。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日