昆仑万维开源Skywork UniPic 融合图片生成与理解

发布时间：2025年7月30日来源：szf

快速阅读: 相关媒体消息，昆仑万维推出开源多模态模型Skywork UniPic，集成图像理解、文本生成图像和图像编辑功能。其采用自回归范式，参数仅1.5B，性能接近大模型，提升多任务处理能力。

据昆仑万维官方消息，7月18日，该公司正式推出了自回归路线的“多模态统一预训练模型 Skywork UniPic”，并将其开源。这款模型集成了图像理解、文本生成图像（T2I）和图像编辑三大核心功能，标志着人工智能技术的进一步发展。

Skywork UniPic 基于大规模高质量数据进行了端到端的预训练，展现出良好的通用性和可迁移性。该团队致力于推动开放合作和创新共享，用户可以通过提供的链接获取模型权重、技术报告和代码仓库，方便开发者和研究者进一步探索和应用。

Skywork UniPic 借鉴了 GPT-4 的自回归范式，通过结合图像理解、文本到图像生成和图像编辑任务，建立了一个真正统一的多模态模型架构。与传统多模态模型不同，Skywork UniPic 采用了 MAR 编码器和 SigLIP2 结构设计，旨在提升模型在理解、生成和编辑任务上的表现。

用户只需输入简单的提示词，Skywork UniPic 就能理解图像内容、生成新图像，甚至进行风格转绘等编辑操作。其简便的使用性和强大的功能，使得这款模型在开发者中备受关注。

Skywork UniPic 以1.5B的轻量级参数规模，实现了接近大型模型的性能，强调了“小而美”的技术设计理念。在各类评估中，该模型表现出色，特别是在指令遵循、复杂指令生成和图像编辑方面，展现了优异的执行能力。

为确保 Skywork UniPic 的高性能，团队还建立了精细化的数据构建和训练体系，通过使用精选的训练数据和创新的奖励模型，不断优化模型性能。通过多阶段的训练和渐进式任务引入，Skywork UniPic 不仅提升了模型的理解和生成能力，还有效解决了多任务训练中的挑战。

Skywork UniPic 的发布为多模态人工智能模型的实用化应用提供了新的解决方案，极大地降低了技术门槛，鼓励更多开发者参与到这一领域的探索中来。

(以上内容均由AI生成)

你可能还想读