谷歌Pixel 10 Pro摄影新突破:AI助力智能变焦与全景拍摄
快速阅读: Isaac Reynolds,Google Pixel相机团队资深成员,介绍Pixel 10 Pro集成多项AI技术,如Pro Res Zoom、对话编辑等,显著提升手机摄影体验,超越iPhone。
Kerry Wan 拍摄了 Google Pixel 10 Pro 的照片。
Sabrina Ortiz/ZDNET
Isaac Reynolds 在 Google 的 Pixel 相机团队工作了近十年,自 2016 年第一款 Google Pixel 手机推出以来一直参与其中。然而,我认为可以说他对今年推出的 Pixel 10 Pro 所集成的技术从未像现在这样充满信心。过去一年中,人工智能领域的突破使得 Google 能够利用大型语言模型、机器学习和生成式 AI 成像技术解锁新的功能,推动手机摄影技术实现了又一次有意义的飞跃。
在 Pixel 10 手机发布后不久,我有机会与 Reynolds 进行了一次交谈,他刚从发布会的忙碌中缓过神来,同时也在为 2026 年 Pixel 手机的下一轮相机升级做准备。
此外:
Pixel 在相机摄影领域超越了 iPhone
我向 Reynolds 提出了关于 Pro Res Zoom、对话编辑、相机教练、AI 模型、Tensor G5 芯片、自动最佳拍摄以及 Pixel 相机团队更大目标的所有迫切问题。同时,他也向我介绍了超长焦全景、C2PA AI 元数据、引导构图和公众教育等方面的信息,这些都是我没有预料到的。
我了解到 Google 团队是如何在 Pixel 10 Pro 相机系统上实现如此大的进步,我们深入探讨了这些新摄影功能,远超 Google 在其 2025 年 Made by Google 活动或发布的博客文章中提到的内容。
以下是我的记者笔记,记录了我所学到的内容。
Pixel 相机团队的使命
Reynolds 表示:“我们的团队一直专注于解决所谓的‘持久性’摄影问题——低光、变焦、动态范围和细节。每一代 Pixel 都带来了新技术。”
相机教练
Reynolds 指出:“大型语言模型具有巨大的上下文窗口,它们在理解方面非常强大,我们可以利用这些技术教人们做技术无法做到的事情。如今,技术无法将相机向下移动四英尺,无法将相机移动到 100 码外的更好视角,也无法告诉你转 90 度。现在,相机教练可以完成这类任务。这是我们利用技术解决这些持久性问题的另一种方式。”
Google Pixel 10 Pro 的相机教练。
Sabrina Ortiz/ZDNET
对话编辑
Google 在 Pixel 10 上宣布的一项最令人惊讶的新功能是对话照片编辑——尽管这实际上是 Google Photos 应用程序中的一个功能。这项功能允许你通过语音或文字简单描述想要在照片中更改的内容,AI 就会处理剩下的事情。例如,你可以移除一棵树,重新居中图像,或者在天空中添加更多的云朵。
Reynolds 解释说:“对话编辑实际上取消了整个界面,它本质上是一个从自然语言映射到编辑器功能的函数。所以你可以说‘擦除左边的东西’,它就会识别出左边是什么东西,然后调用魔法橡皮擦。你可以说‘我在犹他州时记得岩石的颜色更红一些’,它就会稍微增加一点暖色调。你可以说‘能聚焦于中间的东西吗’,它就会在中间加上一个小渐变效果。
这种映射是一个巨大的时间节省者。人工智能的承诺不仅是提供信息,而是为你采取行动。我认为这是人工智能不仅提醒你某件事,而且为你完成这件事的一个最完美的例子。看到它的效果如此出色,真的非常酷。
它甚至会给你建议。AI 会查看一张图片并说‘我认为你可能想移除一些路人’,然后生成这些建议芯片。最有趣的部分是当你点击这些建议芯片时,它只是在文本框中输入内容。你也可以自己输入。它还有一个语音按钮,非常酷。如果你愿意,可以直接对着它说话。AI 的发展速度比我想象的要快得多,而我在这个领域是一名专业人士。”
Pro Res Zoom
作为一名热爱变焦摄影的摄影师,这是我最想与 Reynolds 讨论的功能。我经常使用智能手机拍照,但在远距离变焦时,我通常需要拿出我的索尼无反相机和 70-200mm 镜头。我已经写过我对彻底测试 Pro Res Zoom 的兴奋之情,因为这项技术通过使用生成式 AI 填补数字变焦中的空白,可以帮助手机拍摄更多可用的远距离照片。
雷诺兹评论说:“根本问题在于,如何将数字变焦中远右角的一个传感器像素与左下角的另一个像素之间的所有像素填充。你可以进行插值处理,也可以将它们全部设为某种颜色,比如取平均值。我们已经在这个过程中不断进步。我们经历了多帧降噪,通过了多个不同代的放大器以获得更好的插值效果。从区块到区块的多帧合并,再到超级分辨率变焦的关键进展是从区块到区块的多帧处理转变为概率性的逐像素多帧处理……与此同时,放大器也在不断改进。最新一代的放大器是我们迄今为止在Pixel相机上运行的最大模型……它是一个非常出色的插值器。”
“它不仅仅判断这里应该是黑色,那里是白色,中间部分就是灰色。而是知道那个黑色像素是更大结构的一部分。这个更大的结构看起来像是砖墙上的灰缝。因此,很可能直到某一点之前都是黑色,然后会变成红色——这比简单地认为‘这里是黑色,那里是红色,所以我们就混合着来’要聪明得多。这样,我们仍然保留那些真实的像素,然后需要填补其中的空白。现在的模型在这方面做得非常好。”
顶部照片是在0.5倍变焦下拍摄的,底部照片则是相同的构图在Pixel 10 Pro上以100倍变焦拍摄的。
谷歌(截图由Jason Hiner/ZDNET提供)
“我们有一系列的放大器,这是最新的一个。所有的放大器都有各自的伪影。不同的放大器有不同的问题。过去我们有非常好的文字放大器——因为文字有非常明显的线条——但在处理水时表现不佳,因为水本质上是混沌的。这个放大器也有自己的伪影,但由于新模型在生成完全真实于场景的内容方面做得非常好,这些伪影对于人眼来说很难识别。”
“比如,那确实是一片树叶。它看起来就像一片树上的叶子。它是完美的。但对于人脸,由于人类大脑中有很大一部分专门用于识别人脸,任何水平的伪影都无法接受。树叶上的细微伪影你可能永远不会注意到。但在脸上同样的细微差异,你会立刻察觉——因为我们是人类,我们天生就擅长识别其他人。我们是社会生物,所以对处理好人脸的要求非常高。”
因此,当Pro Res Zoom识别出人脸时,不会使用AI进行放大。
C2PA元数据标记AI
由于谷歌现在是内容保护与真实性联盟(C2PA)的成员,它已经开始在其照片中嵌入元数据,以表明是否使用了生成式AI来制作照片,使用的是由谷歌DeepMind创建的SynthID水印。雷诺兹深度参与了将这一功能整合到Pixel相机中的项目。
“C2PA元数据可以识别这是否是由AI生成的,它还会告诉你图片的历史并将其嵌入。”雷诺兹说道。“我个人担任了该项目的产品经理。我通常不再亲自做这种事情,但我接手了这个项目,因为我深知其重要性、复杂性和微妙之处。越深入研究这个功能,我就越意识到人们实际上对AI知之甚少,不知道它可以做什么、不能做什么,或者它的进步速度有多快。”
谷歌C2PA元数据的一个例子。
此外:
亲身体验谷歌Pixel 10系列:我没有想到这款机型会成为我的最爱
向公众普及AI知识
“世界在认识AI的能力方面确实落后了。所以我们需要做一些教育工作。我们意识到,如果用户更好地了解AI的工作原理,他们可能会非常喜欢AI所能做的事情。所以在Pro Res Zoom中,我们不会处理人脸。我认为这会让人们更加放心。我们还向用户展示前后对比——使用新放大器的版本和未使用的版本,让你自己决定,AI做了什么?你觉得可以接受还是不可接受?绝大多数人发现它不仅是可以接受的,而且是非常偏好的。他们希望进行放大。但如果看不到对比,他们就不会知道这一点。”
为了提高照片的可信度,我们还为其标注了内容凭证[C2PA]。这样一来,当这些照片被分享时,接收者可以根据这些凭证自行判断:“我应该如何看待这张照片?是将其视为可能由AI生成的图像,还是确认其真实性?看到凭证显示这并非AI生成,我可以更加信任。”随着用户对AI和非AI内容的了解逐渐加深,他们将对此更加适应,正如我们在Pro Res Zoom功能上所见,客户满意度在推出前就表现得非常好。
随着技术的进步,我们将进一步拓展其应用范围,可能增加更多模式,提升变焦质量。但我们始终致力于确保这些改进符合用户的期望和理解。因此,我们不仅提供选择和透明度,还力求在技术边界上不断突破,以保持高水平的客户满意度。
谷歌Pixel 10 Pro相机。
Sabrina Ortiz/ZDNET
远摄全景功能
Reynolds告诉我:“我们的相机应用中总是隐藏着一些小惊喜,我们开发的功能比能实际讨论的要多得多。”
Pixel 10 Pro新增的一项摄影功能是远摄全景(或称“5倍远摄全景”),这一功能谷歌尚未充分介绍。它允许用户利用变焦镜头、新的取景器控制以及360度拍摄能力,捕捉高达1亿像素分辨率的电影级风景照。“通过镜头变焦并拼接全景图,这种体验非常美妙。”Reynolds说道。
谷歌并未透露的是,他们采用了全新的全景图像捕捉方法。
“市场上的许多全景图,包括我们过去的产品,都是基于视频的。”Reynolds解释说,“这意味着制作全景图时会拍摄100到1000张图片,每张图片只取一小部分垂直切片进行拼接。这导致两个问题:一是产生的瑕疵往往是曲线、拉伸和压缩,因为是逐片拼接的;二是在30秒内处理多达1000张图片是一个巨大的挑战。”
“因此,我们决定改用照片输入方式。我们只拍摄五张照片而非数百张,并运用全部的HDR Plus、计算摄影和夜间模式技术进行处理,然后只保留少许重叠部分进行拼接。这种方式类似于Adobe Lightroom的做法。这样我们就能实现夜间模式下的全景拍摄,支持高达1亿像素的超精细全景图,并启用之前无法使用的变焦流程。例如,可以在Pixel手机上使用光学品质的2倍变焦,甚至在Pixel Pro上激活5倍远摄。这是一种高度依赖计算摄影的照片基础全景拍摄方法。”
此外:
谷歌Pixel 10 Pro对比iPhone 16 Pro:试用两款旗舰机后,胜者显然
辅助框选功能
Reynolds还提到了一个较为低调的功能——辅助框选。
“辅助框选是一项辅助功能,如果用户视力受损,我们可以通过Gemini帮助他们构图。”Reynolds解释道,“在这种情况下,用户只需指向摄像头,启动辅助框选,系统就会告知‘这是一张森林场景的照片,右侧有几棵树,左侧有一人正在微笑,适合自拍’。之后系统会自动拍照。这项功能对于那些屏幕可见度较低的用户来说,有助于他们拍摄自拍和照片,因为照片是人们交流的重要方式,无论是否视力受损。”
自动最佳拍摄
我还询问了Reynolds关于今年从最佳拍摄升级到自动最佳拍摄的过程,了解到该功能实际上增加了机器学习的应用。
“自动最佳拍摄更像是传统处理方式。”Reynolds评论道,“可以想象这是一个决策树,因为这个功能本质上就是如此。用户按下快门一次。如果这次快门按下时所有人都在微笑,面向摄像头,那么就完成了一张完美的照片。”
如果初次拍摄不够完美,我们将延长快门时间,仔细检查每一帧。这可能涉及在几秒钟内查看多达150帧。一旦发现更好的一帧,我们就会保存并以HDR Plus质量处理这一帧。这样,当你查看相册时,会看到我们选定的主要照片,称为“Top Shot”。这是决策树中的一步。
假设我们在150帧中未能找到完美的照片,但找到了两张几乎完美的照片,比如一张人脸表情较好,另一张则是不同人脸的表情更好。这时,我们会保存这两张照片,并通过“Best Take”功能将它们融合成一张完美的照片。“Top Shot”功能会特意选择一系列照片,确保至少有一张照片中每个人都在微笑。因此,在查看150张照片后,大多数情况下都能得到满意的照片,很少需要进入“Best Take”阶段。实际上,我们称其为“Auto Best Take”,尽管实际上并不经常使用,因为它位于决策树的末端。
我们的目标是,你只需按下一次快门,就能获得一张完美的照片。无论我们如何实现这一点,都不希望你再次拍摄同一组照片三次。毕竟,为什么要在随机拍摄三张照片,当AI可以查看150张照片呢?因此,我们建议你只需按一次快门,等待几秒钟。你会在用户界面上看到,它会围绕人脸画框,当认为捕捉到理想瞬间时,这些框会变成金色。按下快门,等待几秒,然后观看最终效果。
关于Tensor G5的不同之处
谷歌在2025年推出Pixel 10手机时,采用了TSMC的3纳米工艺制造的Tensor G5芯片,这是一个重大转变,之前Tensor芯片由三星代工。我询问了Reynolds关于这一变化的影响。
“Tensor G5带来的提升是我见过的最大变化之一,特别是在处理延迟方面。”他提到,“Pro Res Zoom的初始版本处理时间长达两分钟,但在解决所有问题并在Tensor G5上运行后,这个时间缩短到了几秒钟……Tensor G5的TPU性能提升了60%,这一点非常明显。”
此外:
– 考虑购买Pixel 10 Pro?这里有5款手机推荐,附理由
– 支持Pixel摄影的人工智能模型
– 由于Pixel 10的许多重要新功能都依赖于人工智能的进步,我想了解更多关于Pixel相机团队如何利用谷歌内部的人工智能能力的信息。
– “Gemini并不是一个单一的整体,而是针对特定用途进行了极其精细的调校和测试……谷歌内部有比外界看到的多得多的Gemini版本。然后你需要决定,是提示Gemini还是微调Gemini?这一切都非常定制化,针对特定的实现。”例如,他补充说,“Magic Eraser是生成式的,但它不是Gemini。”
最后的想法
在全球构建前沿人工智能模型的十几家公司中,只有谷歌同时生产自己的智能手机。随着Pixel 10 Pro的推出,这种结合的效果开始显现。
谷歌
– 在2025年的“Made by Google”活动上宣布的所有产品:Pixel 10 Pro、Fold、Watch 4等
– Pixel 10 Pro Fold与三星Galaxy Z Fold 7对比评测:谁胜一筹?
– Pixel 10上的5个人工智能特性,谷歌认为这些能吸引你(包括Fold)
– 升级到Pixel 10 Pro?看看它与所有旧款谷歌手机的比较
(以上内容均由Ai生成)