昆仑万维开源Skywork UniPic 融合图片生成与理解
快速阅读: 相关媒体消息,昆仑万维推出开源多模态模型Skywork UniPic,集成图像理解、文本生成图像和图像编辑功能。其采用自回归范式,参数仅1.5B,性能接近大模型,提升多任务处理能力。
据昆仑万维官方消息,7月18日,该公司正式推出了自回归路线的“多模态统一预训练模型 Skywork UniPic”,并将其开源。这款模型集成了图像理解、文本生成图像(T2I)和图像编辑三大核心功能,标志着人工智能技术的进一步发展。
Skywork UniPic 基于大规模高质量数据进行了端到端的预训练,展现出良好的通用性和可迁移性。该团队致力于推动开放合作和创新共享,用户可以通过提供的链接获取模型权重、技术报告和代码仓库,方便开发者和研究者进一步探索和应用。
Skywork UniPic 借鉴了 GPT-4 的自回归范式,通过结合图像理解、文本到图像生成和图像编辑任务,建立了一个真正统一的多模态模型架构。与传统多模态模型不同,Skywork UniPic 采用了 MAR 编码器和 SigLIP2 结构设计,旨在提升模型在理解、生成和编辑任务上的表现。
用户只需输入简单的提示词,Skywork UniPic 就能理解图像内容、生成新图像,甚至进行风格转绘等编辑操作。其简便的使用性和强大的功能,使得这款模型在开发者中备受关注。
Skywork UniPic 以1.5B的轻量级参数规模,实现了接近大型模型的性能,强调了“小而美”的技术设计理念。在各类评估中,该模型表现出色,特别是在指令遵循、复杂指令生成和图像编辑方面,展现了优异的执行能力。
为确保 Skywork UniPic 的高性能,团队还建立了精细化的数据构建和训练体系,通过使用精选的训练数据和创新的奖励模型,不断优化模型性能。通过多阶段的训练和渐进式任务引入,Skywork UniPic 不仅提升了模型的理解和生成能力,还有效解决了多任务训练中的挑战。
Skywork UniPic 的发布为多模态人工智能模型的实用化应用提供了新的解决方案,极大地降低了技术门槛,鼓励更多开发者参与到这一领域的探索中来。
(以上内容均由AI生成)