AI

腾讯开源WeChat-YATT,破解多模态训练瓶颈

发布时间:2025年8月19日    来源:szf
腾讯开源WeChat-YATT,破解多模态训练瓶颈

快速阅读: 腾讯发布WeChat-YATT大模型训练库,专注强化学习和多模态模型,解决分布式训练瓶颈,提升效率和资源利用率,助力多模态和强化学习创新。

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT,内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练,致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。

WeChat-YATT通过定制化的并行计算策略,有效处理大尺寸模型、长序列输入和大数据集等复杂场景,成功解决了微信内部多个实际业务场景的关键痛点,显著提升了大模型训练效率。该工具为研究人员和开发者提供了灵活且可扩展的技术方案,有望推动多模态和强化学习领域的创新发展。

WeChat-YATT重点解决了大模型分布式训练过程中的两大核心技术瓶颈。首先,在多模态场景下,随着图像、视频等多模态数据规模的增长,传统架构中由单一控制器进行数据管理的方式容易成为通信和内存瓶颈,导致系统吞吐量受限,甚至引发训练流程异常中断。WeChat-YATT通过引入并行控制器的并行管理机制,有效分散了系统压力,大幅提升了系统的可扩展性和稳定性,更好地应对多模态、大数据量的复杂应用场景。

其次,在动态采样与生成式奖励计算中,模型频繁切换和“长尾”任务容易产生大量额外开销,导致GPU算力无法充分利用,严重影响整体训练效率。WeChat-YATT通过部分共存策略和异步交互机制,大幅减轻了模型切换损耗和长尾任务的影响,实现了训练过程中的高吞吐量和高资源利用率,更好地支持大规模RLHF任务的高效迭代。

针对不同业务场景的需求,WeChat-YATT支持全员共存和部分共存两种资源放置模式,最大化提升集群资源利用率。全员共存模式采用串行调度机制,Actor Rollouts、GenRM与Train依次串行执行。每个角色完成任务后主动释放计算资源,系统随即加载下一个任务所需模型。该策略适用于绝大多数常规训练场景。在每个阶段,相关组件均可独占全部GPU资源,这极大缩短了资源空闲“气泡”时间,显著提升总体训练吞吐量和效率。

部分共存模式下,Actor Rollouts与GenRM独立部署,并通过异步方式高效交互。Actor训练阶段占用全部GPU资源,在Rollouts生成阶段释放GPU资源并唤醒Actor Rollouts及GenRM两大组件协同工作。系统通过动态负载评估进行资源分配与均衡,当Rollouts生成完毕后,这两者释放资源,Actor随之重新加载到GPU上进入下一轮训练流程。部分共存模式特别适合Rollouts与GenRM需要高频交互、动态采样的复杂任务场景。

WeChat-YATT还具备多项技术特色。在内存利用方面,项目采用并行控制器架构,有效降低了单节点内存消耗,更适合多模态场景下的大模型训练,提升了系统扩展性和稳定性。在GenRM支持方面,针对生成式奖励模型场景实现了不同的资源放置策略,用户可根据具体场景选择最优的训练方案。

智能检查点策略是另一大亮点。WeChat-YATT支持异步Checkpoint保存,并针对微信业务场景特点,根据调度流程实现断点自动保存,进一步保障了训练安全性和高可用性。此外,系统在训练过程中实现了各个数据并行组间的负载均衡,有效减少资源空闲时间,显著提升整体训练吞吐量。

这一训练库的发布标志着腾讯在大模型技术基础设施建设方面取得重要进展,也为业界提供了处理复杂多模态训练场景的有效解决方案。

(以上内容均由Ai生成)

你可能还想读

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

快速阅读: 欧洲广播联盟和BBC报告显示,AI平台传播新闻存严重风险,影响新闻生态,Perplexity和谷歌AI加剧公众信任下降,研究发现来源、准确性和背景问题是主要障碍。 欧洲广播联盟和BBC发布的一份新报告显示,使用生成式人工智能平台 […]

发布时间:2025年10月23日
AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

快速阅读: 特朗普退让提振市场情绪,但股市上涨主因是AI热潮。自2022年11月ChatGPT推出以来,美国标普500指数市值增加21万亿美元。 特朗普倾向于退让提振了市场情绪,但推动股市上涨的主要动力是围绕生成式人工智能(AI)的炒作。在 […]

发布时间:2025年10月23日
北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

快速阅读: 挪威Riff完成1600万美元A轮融资,累计2100万美元,由Northzone领投。Riff提供AI应用开发平台,支持多行业,旨在提升商业效果和项目成功率,新资金将用于市场扩展。 总部位于奥斯陆的Riff(原名Databutt […]

发布时间:2025年10月23日
Meta裁减AI部门约600岗位,加速技术竞赛

Meta裁减AI部门约600岗位,加速技术竞赛

快速阅读: Meta Platforms 从超级智能实验室裁减约600个职位,以加速AI技术发展。AI首席Alexandr Wang通知裁员,旨在加快决策,增加员工责任。Meta继续为TBD实验室招聘,该团队聚集高薪AI人才。 据报道,Me […]

发布时间:2025年10月23日
渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

快速阅读: Gartner预测,至2026年80%企业将部署生成式AI,但安全与数据基础设施挑战成障碍。研究显示,近半数企业因安全顾虑暂缓云迁移,超半数数据无备份,70%企业过去一年遭遇网络攻击,平均损失五周生产力。VARs在协助企业克服安 […]

发布时间:2025年10月23日
英政府推出AI工具,大幅提高咨询反馈分析效率

英政府推出AI工具,大幅提高咨询反馈分析效率

快速阅读: 英国政府宣布加速人工智能发展,采用“汉弗莱”系列中的Consult工具,每年可节省75,000个人工工作日,该工具处理50,000份咨询回复仅需2小时,效率远超人工。 英国政府宣布,将加速推进人工智能的发展。此前一项研究发现,每 […]

发布时间:2025年10月23日
IBM新Z17主机助力营收大增,AI成增长引擎

IBM新Z17主机助力营收大增,AI成增长引擎

快速阅读: IBM在生成式AI领域赢得95亿美元订单,大型机收入同比增长59%,新Z17机器贡献显著。AI基础设施增长15%,存储成为关键销售点。 克里希纳指出,IBM在生成式AI领域赢得了95亿美元的订单,这是一个显著的成绩。此外,IBM […]

发布时间:2025年10月23日
英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

快速阅读: 特朗普政府正与多家量子计算公司谈判,拟通过联邦资金注资换取股权,涉及IonQ、Rigetti Computing等,每家获至少1000万美元。 感谢IT之家网友 小兴365 的线索投递! IT之家 10 月 23 日消息,据《华 […]

发布时间:2025年10月23日