UniWorld-V2发布,图像编辑精度与中文支持双突破

发布时间:2025年11月7日    来源:szf
UniWorld-V2发布,图像编辑精度与中文支持双突破

快速阅读: 兔展智能与北京大学推出图像编辑模型UniWorld-V2,基于创新强化学习框架UniWorld-R1,大幅提升编辑准确性与灵活性,尤其在中文指令理解和复杂字体渲染方面表现突出,测试成绩领先。

在图像编辑领域,一项颠覆性的技术正在改写游戏规则。兔展智能与北京大学的 UniWorld 团队共同推出了新一代图像编辑模型——UniWorld-V2。此模型不仅在图像处理的细节控制上超越了 Nano Banana,在理解和执行中文指令方面也表现优异。

UniWorld-V2基于一种创新的视觉强化学习框架——UniWorld-R1,该框架首次将强化学习策略优化应用于图像编辑,显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1旨在解决数据过拟合和泛化能力不足的问题,使得模型在面对多样化的编辑指令时能有更好的响应。

例如,当用户要求AI将女性的手势改为“OK”手势时,UniWorld-V2能够精准理解并完成修改。相比之下,Nano Banana未能准确捕捉到用户的意图。更令人称奇的是,在海报编辑示例中,UniWorld-V2能够渲染出复杂的中文艺术字体,如“月满中秋”,确保效果既清晰又语义准确。

该模型的精细控制能力同样引人注目。通过简单的框选操作,用户可以指定编辑区域,实现高难度的调整,如将特定物体移出画面。此外,UniWorld-V2在光影处理方面的表现也非常出色,能够自然地将物体融入场景,提升整体的和谐度。

在测试基准GEdit-Bench和ImgEdit中,UniWorld-V2分别获得了7.83和4.49的高分,远远超过了其他知名模型,如OpenAI的GPT-Image-1和Gemini2.0。这些成绩背后,得益于UniWorld-R1框架的强大通用性,不仅提升了UniWorld-V2的性能,也为其他模型带来了显著改进。

UniWorld-R1的论文、代码和模型已经在GitHub和Hugging Face平台上公开,为未来的研究奠定了基础。这项技术的发布,不仅推动了多模态领域的发展,也为图像编辑技术开辟了新的可能性。

(以上内容均由Ai生成)

你可能还想读

高通Q4财报亮眼:QCT创纪录,汽车与物联网增长强劲

高通Q4财报亮眼:QCT创纪录,汽车与物联网增长强劲

快速阅读: 高通发布2025财年第四季度财报,总收入113亿美元,同比增长10%,超出预期。QCT部门收入创历史新高,达98亿美元,同比增长13%;汽车和物联网业务增长显著,分别为17%和7%。调整后净利润33亿美元,同比增长7%。 高通( […]

发布时间:2025年11月8日
新研究揭示AI模型易受攻击,安全机制存漏洞

新研究揭示AI模型易受攻击,安全机制存漏洞

快速阅读: 研究显示,先进AI模型易受“思维链劫持”攻击,成功率达80%,影响OpenAI、Anthropic等主流模型,引发安全担忧。研究人员提出“推理感知防御”作为解决方案。 新的研究表明,先进的AI模型可能比之前认为的更容易被黑客攻击 […]

发布时间:2025年11月8日
OpenAI呼吁扩大芯片法案税收优惠至AI数据中心

OpenAI呼吁扩大芯片法案税收优惠至AI数据中心

快速阅读: OpenAI向白宫请求扩大AMIC税收抵免范围,涵盖人工智能数据中心和服务器制造商,计划投资5000亿美元建设数据中心,以降低投资风险并加速美国人工智能发展。 OpenAI集团公共利益公司已向白宫请求,将芯片制造厂的税收抵免扩展 […]

发布时间:2025年11月8日
AI角色Tilly Norwood引发好莱坞争议

AI角色Tilly Norwood引发好莱坞争议

快速阅读: 生成式AI执行官范德维尔登创造的AI角色蒂莉·诺伍德意外成为好莱坞焦点。因《截止日》报道其受经纪公司青睐,引发关注与争议,包括创作者谴责、WME拒绝签约及SAG呼吁监管。 生成式人工智能执行官埃琳·范德维尔登表示,她未曾预料到自 […]

发布时间:2025年11月8日
中国AI新模型Kimi K2 Thinking免费发布,性能超越GPT-5

中国AI新模型Kimi K2 Thinking免费发布,性能超越GPT-5

快速阅读: 中国AI实验室Moonshot发布Kimi K2 Thinking模型,声称在多项基准测试中超越GPT-5和Claude Sonnet 4.5,编码能力相当。该模型开源且成本低,或改变AI市场格局。 周四,中国新兴人工智能实验室 […]

发布时间:2025年11月8日
中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5

中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5

快速阅读: 中国AI实验室Moonshot发布新模型Kimi K2 Thinking,声称在多项测试中超越GPT-5和Claude Sonnet 4.5,具备开源、低成本优势,可能改变企业AI工具选择逻辑。 周四,中国新兴人工智能实验室Mo […]

发布时间:2025年11月8日
谷歌地图AI升级,对话导航更智能

谷歌地图AI升级,对话导航更智能

快速阅读: 《Pixelated》第77期讨论谷歌地图即将推出的AI改进,包括对话式导航和地标导航功能;报道谷歌与迪士尼因YouTube TV合同到期的争端;探讨Pixel 10令人印象深刻的销售数字。 欢迎来到《Pixelated》第77 […]

发布时间:2025年11月8日
索尼斯看好AI音乐智能竞赛,布局未来交互中心

索尼斯看好AI音乐智能竞赛,布局未来交互中心

快速阅读: Sonos CEO在财报会议中表示,随着AI普及,未来与AI的自然对话将像使用智能手机一样常见,Sonos将凭借其在智能家庭硬件的优势成为这一变革的核心。 他也注意到人工智能的快速普及。“展望未来,”他在公司第四季度财报电话会议 […]

发布时间:2025年11月8日