AI

谷歌Pixel 10 Pro摄影技术再突破,AI助力智能拍照

发布时间:2025年9月3日    来源:szf
谷歌Pixel 10 Pro摄影技术再突破,AI助力智能拍照

快速阅读: Google Pixel 10 Pro集成多项AI技术,如Pro Res Zoom、对话式编辑、相机教练等,显著提升手机摄影体验。团队持续优化,确保技术领先。

ZDNET记者Kerry Wan使用了Google Pixel 10 Pro的摄像头拍照。

Sabrina Ortiz/ZDNET

Isaac Reynolds在Google的Pixel相机团队工作了近十年,自2016年首款Google Pixel手机推出以来就一直在该团队。然而,我认为可以公平地说,他对Google今年在Pixel 10 Pro中集成的技术从未如此乐观。过去一年里,一系列AI技术突破使Google能够利用大型语言模型、机器学习和生成式AI成像技术解锁新功能,从而实现手机摄影的又一重大飞跃。

在我有机会与Reynolds坐下来交谈时,他刚刚从Pixel 10手机的发布会中缓过神来,同时也在为2026年Pixel手机的下一轮相机升级做准备。

此外:

Pixel在相机摄影领域超越了iPhone

我向Reynolds提出了关于Pro Res Zoom、对话式编辑、相机教练、AI模型、Tensor G5芯片、自动最佳拍摄以及Pixel相机团队更大愿景的所有迫切问题。与此同时,他还向我介绍了我未曾预料到的信息,包括远摄全景、C2PA AI元数据、引导框和公众的AI教育。

我深入了解了Google团队如何在Pixel 10 Pro相机系统中实现如此大的进步,并深入探讨了新的摄影功能,这些内容比Google在其2025年Made by Google活动或发布的博客文章中讨论的要多得多。

以下是我在采访中了解到的内容笔记。

Pixel相机团队的使命

“我认为我们团队始终关注的是所谓的持久性[摄影]问题——低光、变焦、动态范围和细节,”Reynolds说。“每一代Pixel都会带来新技术。”

相机教练

Reynolds提到:“大型语言模型具有巨大的上下文窗口,它们在理解方面非常强大,以至于我们可以真正教会人们做技术无法做到的事情。今天,技术无法将相机移动四英尺。技术无法将相机移动100码到更好的视角。它不能告诉你转90度。现在,相机教练可以完成这类任务。因此,这是我们使用技术解决一些持久性问题的另一种方式。”

Google Pixel 10 Pro的相机教练。

Sabrina Ortiz/ZDNET

对话式编辑

Google在Pixel 10中宣布的最令人惊讶的新功能之一是对话式照片编辑——尽管这实际上是Google相册应用中的一个功能。这一功能允许用户通过语音或文字简单描述想要更改的照片部分,AI会自动完成其余的工作。例如,你可以移除一棵树、重新居中图像或增加天空中的云量。

Google相册中的对话式编辑。

Google

正如Reynolds所解释的,“对话式编辑消除了整个界面,实际上是一种从自然语言映射到编辑工具的功能。所以,你可以说‘删除左边的东西’,它就会识别出左边是什么并调用魔术橡皮擦。你可以说‘嘿,我记得在犹他在岩石更红一些’,它就会稍微增加温暖度。你可以说‘能聚焦中间的东西吗’,它就会围绕中心物体添加一个小渐晕效果。

“这种映射是一个巨大的时间节省者。AI的承诺不仅是提供信息,而且是为你采取行动。我认为这是AI不仅提醒你某事,而是为你完成任务的最完美案例之一。看到它的有效性真的非常酷。

“它甚至会给你建议。AI会查看一张图片并说‘我认为你可能想移除一些旁观者’,然后这些小建议标签就会被填充。最有趣的部分是当你点击这些标签时,它只是在文本框中输入内容。你也可以自己输入。它还有一个语音按钮,非常酷。你可以直接与它对话。AI的进步速度比我想象的要快得多,而我在这个领域是专业人士。”

Pro Res Zoom

作为一名热爱变焦摄影的摄影师,这是我最想与Reynolds讨论的功能。我经常使用智能手机拍照,但在长距离变焦时,我通常需要拿出我的索尼无反相机和70-200mm镜头。我已经写过我对彻底测试Pro Res Zoom的兴奋之情,因为这项技术可以通过使用生成式AI填补数字变焦中的空白,帮助从手机中产生更多可用的变焦照片。

雷诺兹评论说:“根本问题在于,如何在数字变焦时填补像素间的空白。比如,你有一个传感器像素位于远角,另一个位于左下角,你需要填补中间的所有像素。你可以进行插值计算,也可以将它们全部设为某种颜色,例如取平均值。我们已经经历了整个过程,从多帧降噪到多个不同版本的放大器,以实现更好的插值效果。我们还从分块多帧合并发展到了基于概率的逐像素多帧合并……与此同时,放大器也在不断改进。最新一代的放大器是我们迄今为止在Pixel Camera中运行的最大模型……它是一个非常优秀的插值工具。”

“它不仅仅判断黑色和白色,然后中间是灰色。它能够识别出那个黑色像素属于更大的结构,这个结构看起来像是墙面上砖块之间的灰浆。因此,很可能直到某个点都是黑色,之后会变成红色——这比简单地混合黑红要聪明得多。我们需要保留真实的像素,然后填补中间的部分。现在的模型在这方面做得非常好。”

顶部照片是在0.5倍变焦下拍摄的,底部照片则是相同构图下的100倍变焦,拍摄于Pixel 10 Pro上。(图片截取自Jason Hiner/ZDNET)

“我们有一系列的放大器,这是最新的一款。所有的放大器都有各自的瑕疵。不同的放大器有不同的问题。过去有些放大器在处理文字方面非常出色,因为文字有明显的线条,但在处理水时效果很差,因为水本质上是混沌的。这款新的放大器也有自己的瑕疵,但这些瑕疵很难被人类的眼睛察觉,因为新模型在生成真实场景内容方面非常出色。”

“例如,那确实是一片树叶,看起来就像真正的树叶一样,毫无瑕疵。但对于人脸,由于人类大脑中有很大一部分用于识别人脸,任何程度的瑕疵都是不可接受的。对于树叶上的细微瑕疵,你可能永远不会注意到。但如果同样的细微瑕疵出现在脸上,你会立刻察觉——因为我们是社会性动物,设计来识别其他人类。所以,处理好人脸的门槛非常高。”

因此,当Pro Res Zoom识别到人脸时,不会使用AI进行放大处理。

C2PA元数据标记AI

由于谷歌现在是内容来源与真实性联盟(C2PA)的一员,已经开始在其照片中嵌入元数据,以指示是否使用了生成式AI制作照片。这一功能使用的是由谷歌DeepMind创建的水印技术SynthID。雷诺兹深度参与了这个项目,使其成为Pixel Camera的一部分。

“[C2PA]元数据可以标识图像是否经过AI处理,以及图像的历史记录,我们会将其嵌入照片中。”雷诺兹表示,“我亲自担任了这个项目的负责人。虽然我现在很少亲自做这种事情,但我还是接手了这个项目,因为我深知其重要性、复杂性和微妙之处。随着我对这个功能的深入了解,我意识到人们对AI知之甚少,不了解AI能做什么、不能做什么,或者它的进展速度有多快。”

谷歌C2PA元数据的一个例子。

此外:

谷歌Pixel 10系列实测:没想到这款机型会成为我的最爱

向公众普及AI知识

“实际上,世界在认识到AI已经多么先进方面落后了。因此,需要进行一些教育工作。我们意识到,如果用户更好地了解背后的技术,他们会非常喜欢AI所能做的事情。所以在Pro Res Zoom中,我们不处理人脸。我认为这会让人们更加放心。我们还会展示处理前后的对比图——使用新放大器的版本和未使用的版本,让你自己决定AI做了什么,是否可接受。绝大多数人发现这种处理不仅是可以接受的,而且高度偏好。他们希望进行放大处理。但如果看不到对比图,他们可能不会意识到这一点。”

我们还通过内容凭证 [C2PA] 对其进行标注,以便在传输照片时,接收方可以根据这些信息自行决定如何理解和评估这张照片。例如,他们可以判断这是否可能是AI生成的图像,或者确认内容凭证显示这不是AI生成的,从而增加信任度。随着用户对AI知识的增加和实际经验的积累,他们将逐渐更加适应并信任这种技术,就像我们在Pro Res Zoom功能上看到的一样,该功能在推出前的客户满意度就非常高。

随着技术的进步,我们将继续拓展更多功能。可能会将其应用于更多的模式中,提高变焦质量。但我们希望确保这些改进符合用户的期望和理解。因此,我们不仅提供选项和选择的透明度,同时也致力于在保证高客户满意度的前提下推动技术的边界。

谷歌Pixel 10 Pro相机。

Sabrina Ortiz/ZDNET

远摄全景

“我们的相机应用程序中总是隐藏着许多小惊喜,”雷诺兹告诉我。“我们开发的功能比能够实际介绍的多得多。”

Pixel 10 Pro中的一项新摄影功能是远摄全景,谷歌亲切地称其为“5倍远摄全景”。这一功能允许用户利用变焦镜头、新的取景器控制以及高达100兆像素的分辨率拍摄更具电影感的风景照。“通过镜头变焦并拼接全景图,效果非常出色。”雷诺兹说。

然而,谷歌尚未公开的是,他们采用了全新的全景图像捕捉方法。“市场上的许多全景图,包括我们过去的产品,都是基于视频的。”雷诺兹解释道,“这意味着制作全景图时会拍摄100到1000张图片,每张图片只取一小条垂直片段进行拼接。这种方法有两个问题:一是容易产生曲线、拉伸和压缩等瑕疵;二是在30秒内处理如此多的图片非常耗时。”

“为此,我们改用了照片输入的方式,只拍摄五张图片,而非数百张,然后应用完整的HDR Plus、计算摄影和夜视技术进行处理,并保留一些重叠区域进行拼接。这种方法类似于Adobe Lightroom的处理方式。因此,我们现在可以实现夜视全景图,最高可达100兆像素,细节极为丰富,还能启用以前无法使用的变焦功能。例如,在Pixel手机上,你可以使用具有光学品质的2倍变焦,甚至在Pixel Pro上激活5倍远摄。这是一种以计算摄影为核心、基于照片的全景图技术。”

此外:

谷歌Pixel 10 Pro对比iPhone 16 Pro:亲身体验后,胜负一目了然

引导框架(辅助功能)

另一项鲜为人知的功能是引导框架。雷诺兹特别指出了这一点。“引导框架是一种辅助功能,如果用户视力受损,我们利用Gemini帮助他们构图。”雷诺兹解释道,“在这种情况下,用户指向相机,激活引导框架,系统会提示‘这是一张森林场景的照片,右侧有几棵树,左侧有一人正在微笑,适合自拍’。然后它会自动拍照。对于那些看不清屏幕的用户来说,这项功能有助于拍摄自拍和照片,因为照片是人们交流的重要方式。无论视力是否受限,人们都通过图片进行沟通。所以这项功能赋予了他们这种能力。”

自动最佳拍摄

我还询问了雷诺兹关于今年从最佳拍摄进化到自动最佳拍摄的情况,得知这一功能实际上运用了更多的机器学习技术。“自动最佳拍摄更像是传统的处理方式。”雷诺兹评论道,“你可以将其想象成一棵决策树,因为这正是该功能的本质。当用户按下快门键时,如果拍摄完美,每个人都在微笑且面向镜头,那么就只保存这一张照片。”

假设拍摄效果不够理想,我们将延长快门开启时间,仔细检查每一帧图像。这可能涉及在短短几秒内查看多达150帧。如果发现有更佳的一帧,我们会选取并保存这一帧,以全HDR Plus质量进行处理。因此,当你浏览图库时,会看到我们选定的主要照片,称为“最佳镜头”。这是决策树的一个步骤。

如果我们检查了150帧,未能找到完美的那一帧,但发现了两帧接近完美且各有特色(例如不同的面部表情),那么我们会保存这两帧,然后通过“最佳选择”功能将它们融合成一张完美的照片。“最佳镜头”会特意选择一系列图片,确保至少有一张照片中每个人都在微笑。因此,在查看150张照片后,大多数情况下都能得到满意的照片。实际上很少需要使用“最佳选择”,因此称其为“自动最佳选择”有些不寻常,因为现实中并不经常使用,它位于决策树的末端。

目标是用户按下快门一次就能获得一张完美的照片,无论我们如何实现这一点。我们不希望用户再拍三张相同的人像照。毕竟,为什么要在随机拍摄三张照片,当AI可以查看150张照片呢?所以,我们建议只需按一次快门,等待几秒钟。你会在用户界面上看到它围绕人脸画框,当认为捕捉成功时,这些框会变成金色。按下快门,等待几秒,最后看看最终结果。

关于Tensor G5的不同之处

谷歌在2025年通过其Tensor G5芯片为Pixel 10手机提供了强大的动力——从过去的三星代工转向台积电的3纳米工艺,利用台积电的先进技术提升AI性能。我向雷诺兹询问了这一变化的影响。

“Tensor G5带来的提升是我见过的最大幅度之一,特别是在处理延迟方面。”他提到,“Pro Res Zoom的第一版处理时间长达两分钟,而到了后期,当它被移植到Tensor G5上,所有问题都解决后,这个时间缩短到了几秒……因此,Tensor G5 TPU的性能提升了60%,这一点非常明显。”

此外:

如果你正在考虑购买Pixel 10 Pro,我推荐这五款手机,原因如下

驱动Pixel摄影的AI模型

由于Pixel 10最重要的新功能大多由AI进步推动,我想了解更多关于Pixel相机团队如何利用谷歌内部的AI能力的信息。

“这并不是说有一个单一的Gemini模型。”雷诺兹说,“它针对每一个特定的使用场景进行了极其精细的调校和测试……谷歌内部有比外界所见更多的Gemini版本。你需要决定,是提示这个Gemini还是微调这个Gemini?所有这些都是为了特定实施的高度定制。”例如,他补充说,“魔术擦除是生成性的,但它不是Gemini。”

最终思考

在全球十余家构建前沿AI模型的公司中,只有谷歌同时制造自己的智能手机。而随着Pixel 10 Pro的推出,这种结合的影响开始显现。

谷歌

2025年谷歌新品发布会:Pixel 10 Pro、Fold、Watch 4等新品发布

Pixel 10 Pro Fold与三星Galaxy Z Fold 7对比:谁更胜一筹?

Pixel 10上的五大AI特性,谷歌认为能赢得你的青睐(包括Fold)

升级至Pixel 10 Pro?看看它与所有旧款谷歌手机的比较

(以上内容均由Ai生成)

你可能还想读

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

Apriority获230万美元种子轮融资,加入Techstars加速债务管理智能化

快速阅读: Apriority宣布完成230万美元种子轮融资,由Techstars等领投。平台利用AI技术优化债务管理,帮助借款人节省利息,掌握财务控制权,尤其惠及低收入家庭。 旧金山,2025年10月23日 —— 以借款人为核心的服务平台 […]

发布时间:2025年10月23日
Cercli获1200万美元融资,加速AI劳动力平台发展

Cercli获1200万美元融资,加速AI劳动力平台发展

快速阅读: 阿联酋工作管理平台Cercli获1200万美元A轮融资,由Picus Capital领投。资金将用于产品开发、AI创新及市场扩展,目标中东、欧洲和北美。Cercli实现每月22%增长率,客户覆盖50国。 总部位于阿联酋的工作管理 […]

发布时间:2025年10月23日
扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

扎克伯格裁撤600名AI工程师,但称AI仍是未来核心

快速阅读: Meta宣布裁减AI部门约600名工程师,涉及FAIR等多个团队,旨在精简业务提高效率。CEO扎克伯格重申AI仍是公司核心,将继续投资高级机器学习和超级智能项目。 Meta近日宣布从其人工智能(AI)部门裁员约600名工程师,此 […]

发布时间:2025年10月23日
Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

Andreessen Horowitz拟筹集100亿美元,加密货币未被列入重点

快速阅读: 风险投资公司a16z计划筹集100亿美元,重点投资AI和国防,未提及加密货币。此举令人意外,因a16z曾是加密领域的重要支持者,近期仍积极投资相关项目。 据报道,风险投资公司安德森·霍洛维茨(a16z)正在寻求筹集约100亿美元 […]

发布时间:2025年10月23日
花旗资助香港390万港元,助力贫困青年掌握AI技能

花旗资助香港390万港元,助力贫困青年掌握AI技能

快速阅读: 花旗基金会向香港“改变年轻生命基金会”捐赠50万美元,支持为期两年的“求职挑战”项目,提升弱势青少年的人工智能技能和求职能力,增强其就业竞争力。 花旗基金会向香港“改变年轻生命基金会”拨款50万美元(约390万港元),用于为期两 […]

发布时间:2025年10月23日
AI成新界面,企业转型加速

AI成新界面,企业转型加速

快速阅读: 自动驾驶技术从微小升级到移除方向盘,彻底改变车辆设计和旅程体验,重塑汽车与环境的关系。AI发展类似,通过小步快跑实现重大转变,成为统一的用户界面,改善客户互动体验。 多年来,汽车自主驾驶功能的发展似乎只是一系列微小的升级,比如车 […]

发布时间:2025年10月23日
实博蒂克斯成立顾问委员会,推动AI技术发展

实博蒂克斯成立顾问委员会,推动AI技术发展

快速阅读: Realbotix成立顾问委员会,增强AI技术,调整董事会。成员包括谷歌萨利姆·哈桑及转任的安德鲁·德苏扎,目标推进AI与机器人技术发展。弗雷德·派退休,公司感谢其贡献。调整优化产品,强化全球市场地位。 Realbotix公司宣 […]

发布时间:2025年10月23日
OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

OpenAI联手Vantage在威斯康星建数据中心,预计近吉瓦规模

快速阅读: OpenAI宣布在美国扩展Stargate数据中心计划,包括威斯康星州Lighthouse项目,预计2028年完工,将开发近1吉瓦电力,采用可持续能源和环保措施,创造数千就业岗位。 该设施是OpenAI在披露美国五个Starga […]

发布时间:2025年10月23日