AI 行业应用

字节跳动与清华大学携手开源前沿多模态框架HuMo

发布时间：2025年9月12日来源：szf

字节跳动与清华大学携手开源前沿多模态框架HuMo

快速阅读: 字节跳动与清华大学合作推出HuMo开源框架，促进人体视频生成发展。该框架能处理文本、图像和音频，生成高质量视频，支持480P至720P分辨率，最长97帧，25帧/秒。

字节跳动的智能创作团队与清华大学合作，推出了名为 HuMo 的开源框架，旨在促进人体视频生成（HCVG, Human-Centric Video Generation）领域的发展。HuMo 框架具有强大的多模态输入处理能力，能够同时运用文本、图像和音频三种信息，协同生成高质量视频。

HuMo 的命名“Human-Modal”准确体现了其关注人类及其活动的特点。该框架的成功在于构建了高质量的数据集，并创新地采用了渐进式训练方法。这一训练方式使 HuMo 在各项子任务中超越了现有专门化方法，能够生成分辨率高达480P和720P、最长97帧、以25帧每秒速度输出的可控人物视频。

框架的核心优势在于其创新的数据处理流程、灵活的推理策略及渐进式的多模态训练方式。这些技术的融合不仅提升了生成视频的质量，还加快了处理速度，使 HuMo 在实际应用中表现出色。

对开发者和研究者而言，HuMo 不仅是一个新工具，更是一种灵活的解决方案，能够适应不同场景的需求。项目的开源地址让更多人能够参与这项技术的研究与应用，为未来的多模态视频生成探索新的可能性。论文地址: https://arxiv.org/pdf/2509.08519

(以上内容均由Ai生成)

关键词： HuMo 多模态框架字节跳动开源清华大学