昆仑万维推出开源模型Skywork UniPic 2.0
快速阅读: 7月18日,昆仑万维集团在SkyWork AI技术发布周上开源「Skywork UniPic2.0」模型,实现理解、生图、编辑一体化,提供全面开源平台,生成和编辑能力超大参数量模型。
7月18日,昆仑万维集团在SkyWork AI技术发布周的第三天,正式开源其最新研发的「Skywork UniPic2.0」模型。这一统一多模态模型的发布,标志着多模态人工智能领域再次取得重大突破。Skywork UniPic2.0是一个高效的统一多模态建模训练和推理框架,通过生成和编辑模块的轻量化及多模态理解模型的联合训练,实现了理解、生图、编辑一体化的核心能力,目标是实现“高效、高质、统一”的多模态生成模型。
Skywork UniPic2.0由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成。该模型基于SD3.5-Medium架构,将原本只支持文本输入的模型改进为同时接受文本和图像输入,扩展了生图能力至生图和编辑双能力。通过冻结生图编辑模块,多模态模型Qwen2.5-VL-7B与Pre-Train连接器结合,构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块的联合微调,实现最终的一体化理解、生图、编辑模型。
Skywork UniPic2.0的发布,不仅为开发者和研究者提供了一个全面开源的平台,包括模型权重、推理代码、强化策略等,而且其生成模块基于2B参数的SD3.5-Medium架构训练,生图和编辑指标超越了具有更大参数量的其他模型。此外,该模型引入了强化学习,采用Flow-GRPO首创的渐进式双任务强化策略,有效提升了模型对复杂指令的理解能力和图像生成及编辑的一致性。
项目主页:https://unipic-v2.github.io/
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
GitHub地址:https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
HuggingFace Gradio:https://huggingface.co/spaces/Skywork/UniPic2-Metaquery
HuggingFace Model:https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B;https://huggingface.co/Skywork/UniPic2-Metaquery-9B
(以上内容均由Ai生成)