智谱开源四项视频生成核心技术
快速阅读: 据智谱团队消息,12月12日,该团队在开源周活动中发布四项视频生成核心技术及多款多模态模型,涵盖角色动画、实时生成与多主体一致性等方向,旨在降低训练成本、提升生成质量,并推动社区协同创新以加速通用人工智能发展。
在近日举行的智谱多模态开源周活动中,智谱团队宣布开源四项视频生成核心技术,涵盖精细化可控生成、复杂时空结构建模及大规模训练成本优化等方向,旨在推动视频生成技术的发展。
过去一周,该团队陆续发布多个多模态模型,包括GLM-4.6V视觉理解模型、AutoGLM设备控制模型、GLM-ASR语音识别模型和GLM-TTS语音合成模型,以增强大模型在世界知识、记忆与复杂推理方面的能力。此外,在开源周收官之日,团队进一步推出SCAIL、RealVideo、Kaleido和SSVAE四项新技术。
其中,SCAIL聚焦影视级角色动画生成,可精确控制复杂姿态并保障运动中的结构完整性;RealVideo为实时流式视频生成系统,将输出延迟压缩至2至3秒,显著提升人机交互流畅度;Kaleido面向多主体视频生成,有效避免主体间特征混淆,确保一致性;SSVAE则通过优化训练流程,使模型在同等质量下收敛速度提升三倍。
智谱团队表示,此次开源意在激发社区创新活力,为开发者提供扎实的工程方案与研究基础。同时,该团队期待与全球开发者协同推进人工智能技术演进,助力通用人工智能(AGI)的实现。
(以上内容均由Ai生成)