UniWorld-V2发布，图像编辑精度与中文支持双突破

发布时间：2025年11月7日来源：szf

快速阅读: 兔展智能与北京大学推出图像编辑模型UniWorld-V2，基于创新强化学习框架UniWorld-R1，大幅提升编辑准确性与灵活性，尤其在中文指令理解和复杂字体渲染方面表现突出，测试成绩领先。

在图像编辑领域，一项颠覆性的技术正在改写游戏规则。兔展智能与北京大学的 UniWorld 团队共同推出了新一代图像编辑模型——UniWorld-V2。此模型不仅在图像处理的细节控制上超越了 Nano Banana，在理解和执行中文指令方面也表现优异。

UniWorld-V2基于一种创新的视觉强化学习框架——UniWorld-R1，该框架首次将强化学习策略优化应用于图像编辑，显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比，UniWorld-R1旨在解决数据过拟合和泛化能力不足的问题，使得模型在面对多样化的编辑指令时能有更好的响应。

例如，当用户要求AI将女性的手势改为“OK”手势时，UniWorld-V2能够精准理解并完成修改。相比之下，Nano Banana未能准确捕捉到用户的意图。更令人称奇的是，在海报编辑示例中，UniWorld-V2能够渲染出复杂的中文艺术字体，如“月满中秋”，确保效果既清晰又语义准确。

该模型的精细控制能力同样引人注目。通过简单的框选操作，用户可以指定编辑区域，实现高难度的调整，如将特定物体移出画面。此外，UniWorld-V2在光影处理方面的表现也非常出色，能够自然地将物体融入场景，提升整体的和谐度。

在测试基准GEdit-Bench和ImgEdit中，UniWorld-V2分别获得了7.83和4.49的高分，远远超过了其他知名模型，如OpenAI的GPT-Image-1和Gemini2.0。这些成绩背后，得益于UniWorld-R1框架的强大通用性，不仅提升了UniWorld-V2的性能，也为其他模型带来了显著改进。

UniWorld-R1的论文、代码和模型已经在GitHub和Hugging Face平台上公开，为未来的研究奠定了基础。这项技术的发布，不仅推动了多模态领域的发展，也为图像编辑技术开辟了新的可能性。

(以上内容均由Ai生成)