UniWorld-V2发布,图像编辑精度与中文支持双突破
快速阅读: 兔展智能与北京大学推出图像编辑模型UniWorld-V2,基于创新强化学习框架UniWorld-R1,大幅提升编辑准确性与灵活性,尤其在中文指令理解和复杂字体渲染方面表现突出,测试成绩领先。
在图像编辑领域,一项颠覆性的技术正在改写游戏规则。兔展智能与北京大学的 UniWorld 团队共同推出了新一代图像编辑模型——UniWorld-V2。此模型不仅在图像处理的细节控制上超越了 Nano Banana,在理解和执行中文指令方面也表现优异。
UniWorld-V2基于一种创新的视觉强化学习框架——UniWorld-R1,该框架首次将强化学习策略优化应用于图像编辑,显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1旨在解决数据过拟合和泛化能力不足的问题,使得模型在面对多样化的编辑指令时能有更好的响应。
例如,当用户要求AI将女性的手势改为“OK”手势时,UniWorld-V2能够精准理解并完成修改。相比之下,Nano Banana未能准确捕捉到用户的意图。更令人称奇的是,在海报编辑示例中,UniWorld-V2能够渲染出复杂的中文艺术字体,如“月满中秋”,确保效果既清晰又语义准确。
该模型的精细控制能力同样引人注目。通过简单的框选操作,用户可以指定编辑区域,实现高难度的调整,如将特定物体移出画面。此外,UniWorld-V2在光影处理方面的表现也非常出色,能够自然地将物体融入场景,提升整体的和谐度。
在测试基准GEdit-Bench和ImgEdit中,UniWorld-V2分别获得了7.83和4.49的高分,远远超过了其他知名模型,如OpenAI的GPT-Image-1和Gemini2.0。这些成绩背后,得益于UniWorld-R1框架的强大通用性,不仅提升了UniWorld-V2的性能,也为其他模型带来了显著改进。
UniWorld-R1的论文、代码和模型已经在GitHub和Hugging Face平台上公开,为未来的研究奠定了基础。这项技术的发布,不仅推动了多模态领域的发展,也为图像编辑技术开辟了新的可能性。
(以上内容均由Ai生成)