苹果发布秒级2D转3D图像AI模型

发布时间：2025年12月18日来源：szf

快速阅读: 据苹果公司消息，该公司近期发布三项AI研究成果：推出GIE-Bench图像编辑评估框架、IMPACT多语言屈折形态测试体系及SHARP单图3D重建模型。相关技术将用于优化Apple Intelligence功能，新版上下文感知Siri预计随iOS 26.4上线。

苹果公司近期发布两项人工智能研究成果，分别聚焦图像编辑模型评估与多语言大模型的形态学能力测试。

在图像生成领域，该公司推出名为“GIE-Bench”的评估框架，从功能正确性与图像保真度两方面量化文本引导图像编辑的效果。功能正确性通过自动生成的多选题验证编辑指令是否准确执行；图像保真度则采用目标感知掩码技术，确保非编辑区域不受干扰，并辅以人工标注校验。测试涵盖千余样本、20类内容，评估对象包括MGIE、OmniGen及GPT-Image-1等主流模型。结果显示，GPT-Image-1整体表现最优，但在对象移除不彻底、布局理解偏差或背景保留不足等问题上仍有欠缺。相比之下，OneDiffusion与MagicBrush在各项保真指标中表现更稳定。该评估体系可为苹果测试自研模型或分析竞品提供有效工具。目前，苹果已推出名为“Image Playground”的端侧图像生成方案，作为其多语言支持的“Apple Intelligence”AI功能套件组成部分。

另一项研究针对大语言模型在屈折形态丰富语言中的表现。苹果研究人员开发了名为IMPACT的专用评估框架，重点考察模型对阿拉伯语、俄语、芬兰语、土耳其语和希伯来语等语言中屈折变化的掌握程度。屈折形态通过词缀表达语法功能，如名词数、动词时态等。IMPACT包含单元测试式用例，覆盖基本动词变位及特定语言现象，例如阿拉伯语的反向性一致、芬土语的元音和谐等。研究团队对八个多语言大模型进行测试，任务包括生成正确屈折形式与判断语句是否合乎语法。结果显示，当前模型普遍在非英语语言、尤其是罕见屈折模式上表现不佳，且对不合语法样本的识别能力有限。所有模型在所测语言中的表现均弱于英语。

此外，苹果此前还发布了名为“SHARP”的开源AI模型，可在不到一秒内将单张2D图像转化为具有深度感的3D场景。该模型基于3D高斯表示方法，通过神经网络单次前馈推理，在普通GPU上即可完成运算。与传统依赖多角度照片重建3D环境的方法不同，SHARP仅需一张图像即可预测场景深度并生成相应三维结构。研究团队通过大规模数据集训练，使模型能识别常见深度模式，但其在复杂反射、遮挡关系（如蜜蜂误置于花朵后方）及天空曲面误判等场景中仍存在局限。该模型仅重建图像可见区域，不进行环境外推。目前，SHARP已公开上线GitHub，为相关领域研究提供新工具。

2025年，苹果已推出基于AirPods的“实时翻译”功能。尽管公司AI负责人约翰·詹南德里亚近期退休，其AI研究步伐未减。据悉，具备上下文感知能力的新版Siri预计将在iOS 26.4更新中推出。

(以上内容均由Ai生成)

引用自：AppleInsider网站