字节跳动与清华大学携手开源前沿多模态框架HuMo
快速阅读: 字节跳动与清华大学合作推出HuMo开源框架,促进人体视频生成发展。该框架能处理文本、图像和音频,生成高质量视频,支持480P至720P分辨率,最长97帧,25帧/秒。
字节跳动的智能创作团队与清华大学合作,推出了名为 HuMo 的开源框架,旨在促进人体视频生成(HCVG, Human-Centric Video Generation)领域的发展。HuMo 框架具有强大的多模态输入处理能力,能够同时运用文本、图像和音频三种信息,协同生成高质量视频。
HuMo 的命名“Human-Modal”准确体现了其关注人类及其活动的特点。该框架的成功在于构建了高质量的数据集,并创新地采用了渐进式训练方法。这一训练方式使 HuMo 在各项子任务中超越了现有专门化方法,能够生成分辨率高达480P和720P、最长97帧、以25帧每秒速度输出的可控人物视频。
框架的核心优势在于其创新的数据处理流程、灵活的推理策略及渐进式的多模态训练方式。这些技术的融合不仅提升了生成视频的质量,还加快了处理速度,使 HuMo 在实际应用中表现出色。
对开发者和研究者而言,HuMo 不仅是一个新工具,更是一种灵活的解决方案,能够适应不同场景的需求。项目的开源地址让更多人能够参与这项技术的研究与应用,为未来的多模态视频生成探索新的可能性。论文地址: https://arxiv.org/pdf/2509.08519
(以上内容均由Ai生成)