AI

苹果发布Manzano图像模型,实现理解生成双突破

发布时间:2025年9月28日    来源:szf
苹果发布Manzano图像模型,实现理解生成双突破

快速阅读: 苹果研发的Manzano图像模型,能同时处理图像理解和生成,解决开源模型技术难题,其性能接近商业系统,尤其在文本密集型任务上表现优异。

苹果公司近期在其研究中介绍了一种名为 Manzano 的新型图像模型,该模型旨在同时处理图像理解和生成。这种双重能力的实现是当前许多开源模型面临的技术难题,而苹果表示,这使得 Manzano 在图像处理的效率和效果上更接近商业系统,例如 OpenAI 和谷歌提供的技术。

目前,Manzano 尚未对外发布,也未进行公开演示。不过,苹果的研究团队分享了一篇研究论文,并附带了一些低分辨率的图像样本,展示了模型在处理复杂提示时的能力。这些样本与开源模型 Deepseek Janus Pro 和商业系统 GPT-4o、Gemini2.5Flash Image Generation(又称“Nano Banana”)的输出进行了对比。在三组具有挑战性的提示测试中,Manzano 的表现与 OpenAI 的 GPT-4o 和谷歌的 Nano Banana 相当。

苹果指出,目前大多数开源模型的主要限制在于,它们通常需要在强大的图像分析和生成能力之间做出选择,而商业系统则能兼顾两者。特别是在处理包含大量文本的任务时,如阅读文件或解读图表,现有模型的表现尤为不足。

Manzano 的设计采用了混合图像标记器,这一核心理念使其能够输出两种类型的标记:连续标记和离散标记。连续标记通过浮点数表示图像,用于理解,而离散标记则将图像划分为固定的类别,便于生成。由于两种标记均源自同一编码器,这减少了传统模型中可能出现的冲突。

在训练过程中,Manzano 结合了连续和离散适配器来调整语言模型的解码器。推理时,它提供了理解和生成图像所需的两个数据流。Manzano 的架构主要包括三个部分:混合标记器、统一语言模型和用于最终输出的独立图像解码器。苹果构建了三种不同参数量的图像解码器,参数量分别为0.9亿、1.75亿和3.52亿,支持256至2048像素的分辨率。

苹果的测试结果显示,Manzano 在多个基准测试中表现出色,尤其在处理文本密集型任务如图表和文件分析方面,30亿参数版本的得分尤为突出。研究还发现,随着模型参数量从3亿增至30亿,性能持续提升。

Manzano 不仅能处理传统的图像编辑任务,还能执行基于提示的编辑、风格迁移、图像填充、扩展和深度估计等新任务。苹果认为,Manzano 是现有模型的一个可行替代方案,其模块化设计可能对未来多模态 AI 产生深远影响。

论文链接:https://arxiv.org/abs/2509.16197

划重点:

🌟 Manzano 是一种新型图像模型,能够同时进行图像理解和生成。

🔍 苹果的研究表明,Manzano 在处理复杂文本任务时表现出色,接近商业系统的水平。

⚙️ 该模型采用混合图像标记器,减少了图像理解与生成之间的冲突。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日