谷歌Pixel 10 Pro摄影技术再突破，AI助力智能拍照

快速阅读: Google Pixel 10 Pro集成多项AI技术，如Pro Res Zoom、对话式编辑、相机教练等，显著提升手机摄影体验。团队持续优化，确保技术领先。

ZDNET记者Kerry Wan使用了Google Pixel 10 Pro的摄像头拍照。

Sabrina Ortiz/ZDNET

Isaac Reynolds在Google的Pixel相机团队工作了近十年，自2016年首款Google Pixel手机推出以来就一直在该团队。然而，我认为可以公平地说，他对Google今年在Pixel 10 Pro中集成的技术从未如此乐观。过去一年里，一系列AI技术突破使Google能够利用大型语言模型、机器学习和生成式AI成像技术解锁新功能，从而实现手机摄影的又一重大飞跃。

在我有机会与Reynolds坐下来交谈时，他刚刚从Pixel 10手机的发布会中缓过神来，同时也在为2026年Pixel手机的下一轮相机升级做准备。

此外：

Pixel在相机摄影领域超越了iPhone

我向Reynolds提出了关于Pro Res Zoom、对话式编辑、相机教练、AI模型、Tensor G5芯片、自动最佳拍摄以及Pixel相机团队更大愿景的所有迫切问题。与此同时，他还向我介绍了我未曾预料到的信息，包括远摄全景、C2PA AI元数据、引导框和公众的AI教育。

我深入了解了Google团队如何在Pixel 10 Pro相机系统中实现如此大的进步，并深入探讨了新的摄影功能，这些内容比Google在其2025年Made by Google活动或发布的博客文章中讨论的要多得多。

以下是我在采访中了解到的内容笔记。

Pixel相机团队的使命

“我认为我们团队始终关注的是所谓的持久性[摄影]问题——低光、变焦、动态范围和细节，”Reynolds说。“每一代Pixel都会带来新技术。”

相机教练

Reynolds提到：“大型语言模型具有巨大的上下文窗口，它们在理解方面非常强大，以至于我们可以真正教会人们做技术无法做到的事情。今天，技术无法将相机移动四英尺。技术无法将相机移动100码到更好的视角。它不能告诉你转90度。现在，相机教练可以完成这类任务。因此，这是我们使用技术解决一些持久性问题的另一种方式。”

Google Pixel 10 Pro的相机教练。

Sabrina Ortiz/ZDNET

对话式编辑

Google在Pixel 10中宣布的最令人惊讶的新功能之一是对话式照片编辑——尽管这实际上是Google相册应用中的一个功能。这一功能允许用户通过语音或文字简单描述想要更改的照片部分，AI会自动完成其余的工作。例如，你可以移除一棵树、重新居中图像或增加天空中的云量。

Google相册中的对话式编辑。

Google

正如Reynolds所解释的，“对话式编辑消除了整个界面，实际上是一种从自然语言映射到编辑工具的功能。所以，你可以说‘删除左边的东西’，它就会识别出左边是什么并调用魔术橡皮擦。你可以说‘嘿，我记得在犹他在岩石更红一些’，它就会稍微增加温暖度。你可以说‘能聚焦中间的东西吗’，它就会围绕中心物体添加一个小渐晕效果。

“这种映射是一个巨大的时间节省者。AI的承诺不仅是提供信息，而且是为你采取行动。我认为这是AI不仅提醒你某事，而是为你完成任务的最完美案例之一。看到它的有效性真的非常酷。

“它甚至会给你建议。AI会查看一张图片并说‘我认为你可能想移除一些旁观者’，然后这些小建议标签就会被填充。最有趣的部分是当你点击这些标签时，它只是在文本框中输入内容。你也可以自己输入。它还有一个语音按钮，非常酷。你可以直接与它对话。AI的进步速度比我想象的要快得多，而我在这个领域是专业人士。”

Pro Res Zoom

作为一名热爱变焦摄影的摄影师，这是我最想与Reynolds讨论的功能。我经常使用智能手机拍照，但在长距离变焦时，我通常需要拿出我的索尼无反相机和70-200mm镜头。我已经写过我对彻底测试Pro Res Zoom的兴奋之情，因为这项技术可以通过使用生成式AI填补数字变焦中的空白，帮助从手机中产生更多可用的变焦照片。

雷诺兹评论说：“根本问题在于，如何在数字变焦时填补像素间的空白。比如，你有一个传感器像素位于远角，另一个位于左下角，你需要填补中间的所有像素。你可以进行插值计算，也可以将它们全部设为某种颜色，例如取平均值。我们已经经历了整个过程，从多帧降噪到多个不同版本的放大器，以实现更好的插值效果。我们还从分块多帧合并发展到了基于概率的逐像素多帧合并……与此同时，放大器也在不断改进。最新一代的放大器是我们迄今为止在Pixel Camera中运行的最大模型……它是一个非常优秀的插值工具。”

“它不仅仅判断黑色和白色，然后中间是灰色。它能够识别出那个黑色像素属于更大的结构，这个结构看起来像是墙面上砖块之间的灰浆。因此，很可能直到某个点都是黑色，之后会变成红色——这比简单地混合黑红要聪明得多。我们需要保留真实的像素，然后填补中间的部分。现在的模型在这方面做得非常好。”

顶部照片是在0.5倍变焦下拍摄的，底部照片则是相同构图下的100倍变焦，拍摄于Pixel 10 Pro上。（图片截取自Jason Hiner/ZDNET）

“我们有一系列的放大器，这是最新的一款。所有的放大器都有各自的瑕疵。不同的放大器有不同的问题。过去有些放大器在处理文字方面非常出色，因为文字有明显的线条，但在处理水时效果很差，因为水本质上是混沌的。这款新的放大器也有自己的瑕疵，但这些瑕疵很难被人类的眼睛察觉，因为新模型在生成真实场景内容方面非常出色。”

“例如，那确实是一片树叶，看起来就像真正的树叶一样，毫无瑕疵。但对于人脸，由于人类大脑中有很大一部分用于识别人脸，任何程度的瑕疵都是不可接受的。对于树叶上的细微瑕疵，你可能永远不会注意到。但如果同样的细微瑕疵出现在脸上，你会立刻察觉——因为我们是社会性动物，设计来识别其他人类。所以，处理好人脸的门槛非常高。”

因此，当Pro Res Zoom识别到人脸时，不会使用AI进行放大处理。

C2PA元数据标记AI

由于谷歌现在是内容来源与真实性联盟（C2PA）的一员，已经开始在其照片中嵌入元数据，以指示是否使用了生成式AI制作照片。这一功能使用的是由谷歌DeepMind创建的水印技术SynthID。雷诺兹深度参与了这个项目，使其成为Pixel Camera的一部分。

“[C2PA]元数据可以标识图像是否经过AI处理，以及图像的历史记录，我们会将其嵌入照片中。”雷诺兹表示，“我亲自担任了这个项目的负责人。虽然我现在很少亲自做这种事情，但我还是接手了这个项目，因为我深知其重要性、复杂性和微妙之处。随着我对这个功能的深入了解，我意识到人们对AI知之甚少，不了解AI能做什么、不能做什么，或者它的进展速度有多快。”

谷歌C2PA元数据的一个例子。

此外：

谷歌Pixel 10系列实测：没想到这款机型会成为我的最爱

向公众普及AI知识

“实际上，世界在认识到AI已经多么先进方面落后了。因此，需要进行一些教育工作。我们意识到，如果用户更好地了解背后的技术，他们会非常喜欢AI所能做的事情。所以在Pro Res Zoom中，我们不处理人脸。我认为这会让人们更加放心。我们还会展示处理前后的对比图——使用新放大器的版本和未使用的版本，让你自己决定AI做了什么，是否可接受。绝大多数人发现这种处理不仅是可以接受的，而且高度偏好。他们希望进行放大处理。但如果看不到对比图，他们可能不会意识到这一点。”

我们还通过内容凭证 [C2PA] 对其进行标注，以便在传输照片时，接收方可以根据这些信息自行决定如何理解和评估这张照片。例如，他们可以判断这是否可能是AI生成的图像，或者确认内容凭证显示这不是AI生成的，从而增加信任度。随着用户对AI知识的增加和实际经验的积累，他们将逐渐更加适应并信任这种技术，就像我们在Pro Res Zoom功能上看到的一样，该功能在推出前的客户满意度就非常高。

随着技术的进步，我们将继续拓展更多功能。可能会将其应用于更多的模式中，提高变焦质量。但我们希望确保这些改进符合用户的期望和理解。因此，我们不仅提供选项和选择的透明度，同时也致力于在保证高客户满意度的前提下推动技术的边界。

谷歌Pixel 10 Pro相机。

Sabrina Ortiz/ZDNET

远摄全景

“我们的相机应用程序中总是隐藏着许多小惊喜，”雷诺兹告诉我。“我们开发的功能比能够实际介绍的多得多。”

Pixel 10 Pro中的一项新摄影功能是远摄全景，谷歌亲切地称其为“5倍远摄全景”。这一功能允许用户利用变焦镜头、新的取景器控制以及高达100兆像素的分辨率拍摄更具电影感的风景照。“通过镜头变焦并拼接全景图，效果非常出色。”雷诺兹说。

然而，谷歌尚未公开的是，他们采用了全新的全景图像捕捉方法。“市场上的许多全景图，包括我们过去的产品，都是基于视频的。”雷诺兹解释道，“这意味着制作全景图时会拍摄100到1000张图片，每张图片只取一小条垂直片段进行拼接。这种方法有两个问题：一是容易产生曲线、拉伸和压缩等瑕疵；二是在30秒内处理如此多的图片非常耗时。”

“为此，我们改用了照片输入的方式，只拍摄五张图片，而非数百张，然后应用完整的HDR Plus、计算摄影和夜视技术进行处理，并保留一些重叠区域进行拼接。这种方法类似于Adobe Lightroom的处理方式。因此，我们现在可以实现夜视全景图，最高可达100兆像素，细节极为丰富，还能启用以前无法使用的变焦功能。例如，在Pixel手机上，你可以使用具有光学品质的2倍变焦，甚至在Pixel Pro上激活5倍远摄。这是一种以计算摄影为核心、基于照片的全景图技术。”

此外：

谷歌Pixel 10 Pro对比iPhone 16 Pro：亲身体验后，胜负一目了然

引导框架（辅助功能）

另一项鲜为人知的功能是引导框架。雷诺兹特别指出了这一点。“引导框架是一种辅助功能，如果用户视力受损，我们利用Gemini帮助他们构图。”雷诺兹解释道，“在这种情况下，用户指向相机，激活引导框架，系统会提示‘这是一张森林场景的照片，右侧有几棵树，左侧有一人正在微笑，适合自拍’。然后它会自动拍照。对于那些看不清屏幕的用户来说，这项功能有助于拍摄自拍和照片，因为照片是人们交流的重要方式。无论视力是否受限，人们都通过图片进行沟通。所以这项功能赋予了他们这种能力。”

自动最佳拍摄

我还询问了雷诺兹关于今年从最佳拍摄进化到自动最佳拍摄的情况，得知这一功能实际上运用了更多的机器学习技术。“自动最佳拍摄更像是传统的处理方式。”雷诺兹评论道，“你可以将其想象成一棵决策树，因为这正是该功能的本质。当用户按下快门键时，如果拍摄完美，每个人都在微笑且面向镜头，那么就只保存这一张照片。”

假设拍摄效果不够理想，我们将延长快门开启时间，仔细检查每一帧图像。这可能涉及在短短几秒内查看多达150帧。如果发现有更佳的一帧，我们会选取并保存这一帧，以全HDR Plus质量进行处理。因此，当你浏览图库时，会看到我们选定的主要照片，称为“最佳镜头”。这是决策树的一个步骤。

如果我们检查了150帧，未能找到完美的那一帧，但发现了两帧接近完美且各有特色（例如不同的面部表情），那么我们会保存这两帧，然后通过“最佳选择”功能将它们融合成一张完美的照片。“最佳镜头”会特意选择一系列图片，确保至少有一张照片中每个人都在微笑。因此，在查看150张照片后，大多数情况下都能得到满意的照片。实际上很少需要使用“最佳选择”，因此称其为“自动最佳选择”有些不寻常，因为现实中并不经常使用，它位于决策树的末端。

目标是用户按下快门一次就能获得一张完美的照片，无论我们如何实现这一点。我们不希望用户再拍三张相同的人像照。毕竟，为什么要在随机拍摄三张照片，当AI可以查看150张照片呢？所以，我们建议只需按一次快门，等待几秒钟。你会在用户界面上看到它围绕人脸画框，当认为捕捉成功时，这些框会变成金色。按下快门，等待几秒，最后看看最终结果。

关于Tensor G5的不同之处

谷歌在2025年通过其Tensor G5芯片为Pixel 10手机提供了强大的动力——从过去的三星代工转向台积电的3纳米工艺，利用台积电的先进技术提升AI性能。我向雷诺兹询问了这一变化的影响。

“Tensor G5带来的提升是我见过的最大幅度之一，特别是在处理延迟方面。”他提到，“Pro Res Zoom的第一版处理时间长达两分钟，而到了后期，当它被移植到Tensor G5上，所有问题都解决后，这个时间缩短到了几秒……因此，Tensor G5 TPU的性能提升了60%，这一点非常明显。”

此外：

如果你正在考虑购买Pixel 10 Pro，我推荐这五款手机，原因如下

驱动Pixel摄影的AI模型

由于Pixel 10最重要的新功能大多由AI进步推动，我想了解更多关于Pixel相机团队如何利用谷歌内部的AI能力的信息。

“这并不是说有一个单一的Gemini模型。”雷诺兹说，“它针对每一个特定的使用场景进行了极其精细的调校和测试……谷歌内部有比外界所见更多的Gemini版本。你需要决定，是提示这个Gemini还是微调这个Gemini？所有这些都是为了特定实施的高度定制。”例如，他补充说，“魔术擦除是生成性的，但它不是Gemini。”

最终思考

在全球十余家构建前沿AI模型的公司中，只有谷歌同时制造自己的智能手机。而随着Pixel 10 Pro的推出，这种结合的影响开始显现。

谷歌

2025年谷歌新品发布会：Pixel 10 Pro、Fold、Watch 4等新品发布

Pixel 10 Pro Fold与三星Galaxy Z Fold 7对比：谁更胜一筹？

Pixel 10上的五大AI特性，谷歌认为能赢得你的青睐（包括Fold）

升级至Pixel 10 Pro？看看它与所有旧款谷歌手机的比较

(以上内容均由Ai生成)