苹果发布多模态AI模型UniGen 1.5

发布时间：2025年12月19日来源：szf

快速阅读: 据苹果研究团队消息，其推出多模态AI模型UniGen1.5，首次集成图像理解、生成与编辑功能，采用“先想后画”机制提升编辑准确性，并在多项基准测试中超越主流开源及部分闭源模型，但文字生成和细节稳定性仍有待优化。

近日，苹果研究团队推出多模态人工智能模型UniGen1.5，在图像处理领域取得重要突破。该模型首次将图像理解、生成与编辑三大功能集成于统一框架，显著提升了处理效率与输出质量。

相比传统方法，UniGen1.5采用一体化架构，使图像生成过程能充分调用其理解能力，从而优化视觉效果。在图像编辑方面，模型创新引入“编辑指令对齐”技术：系统需先根据原始图像和用户指令生成详细文本描述，再执行修改。这一“先想后画”机制有效增强了对复杂编辑意图的准确把握。

此外，研究团队设计了统一的强化学习奖励系统，同步优化生成与编辑任务的训练过程，解决了编辑质量标准不一致的问题，使模型在多种视觉任务中保持稳定高性能。

在多项行业基准测试中，UniGen1.5表现突出。其在GenEval和DPG-Bench测试中分别获得0.89分和86.83分，明显优于BAGEL、BLIP3o等主流模型；在专门评估图像编辑能力的ImgEdit测试中，得分达4.31，不仅超越开源模型OminiGen2，还与部分闭源模型如GPT-Image-1相当。

研究人员同时指出，该模型在生成图像中的文字时仍存在错误，且在特定编辑场景下可能出现主体特征漂移，例如动物毛发纹理或颜色偏差。未来，团队将持续优化相关问题，进一步提升模型的鲁棒性与实用性。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯网站