AI

谷歌Pixel 10 Pro摄影技术再突破,AI助力智能拍照

发布时间:2025年9月3日    来源:szf
谷歌Pixel 10 Pro摄影技术再突破,AI助力智能拍照

快速阅读: Google Pixel 10 Pro集成多项AI技术,如Pro Res Zoom、对话式编辑、相机教练等,显著提升手机摄影体验。团队持续优化,确保技术领先。

ZDNET记者Kerry Wan使用了Google Pixel 10 Pro的摄像头拍照。

Sabrina Ortiz/ZDNET

Isaac Reynolds在Google的Pixel相机团队工作了近十年,自2016年首款Google Pixel手机推出以来就一直在该团队。然而,我认为可以公平地说,他对Google今年在Pixel 10 Pro中集成的技术从未如此乐观。过去一年里,一系列AI技术突破使Google能够利用大型语言模型、机器学习和生成式AI成像技术解锁新功能,从而实现手机摄影的又一重大飞跃。

在我有机会与Reynolds坐下来交谈时,他刚刚从Pixel 10手机的发布会中缓过神来,同时也在为2026年Pixel手机的下一轮相机升级做准备。

此外:

Pixel在相机摄影领域超越了iPhone

我向Reynolds提出了关于Pro Res Zoom、对话式编辑、相机教练、AI模型、Tensor G5芯片、自动最佳拍摄以及Pixel相机团队更大愿景的所有迫切问题。与此同时,他还向我介绍了我未曾预料到的信息,包括远摄全景、C2PA AI元数据、引导框和公众的AI教育。

我深入了解了Google团队如何在Pixel 10 Pro相机系统中实现如此大的进步,并深入探讨了新的摄影功能,这些内容比Google在其2025年Made by Google活动或发布的博客文章中讨论的要多得多。

以下是我在采访中了解到的内容笔记。

Pixel相机团队的使命

“我认为我们团队始终关注的是所谓的持久性[摄影]问题——低光、变焦、动态范围和细节,”Reynolds说。“每一代Pixel都会带来新技术。”

相机教练

Reynolds提到:“大型语言模型具有巨大的上下文窗口,它们在理解方面非常强大,以至于我们可以真正教会人们做技术无法做到的事情。今天,技术无法将相机移动四英尺。技术无法将相机移动100码到更好的视角。它不能告诉你转90度。现在,相机教练可以完成这类任务。因此,这是我们使用技术解决一些持久性问题的另一种方式。”

Google Pixel 10 Pro的相机教练。

Sabrina Ortiz/ZDNET

对话式编辑

Google在Pixel 10中宣布的最令人惊讶的新功能之一是对话式照片编辑——尽管这实际上是Google相册应用中的一个功能。这一功能允许用户通过语音或文字简单描述想要更改的照片部分,AI会自动完成其余的工作。例如,你可以移除一棵树、重新居中图像或增加天空中的云量。

Google相册中的对话式编辑。

Google

正如Reynolds所解释的,“对话式编辑消除了整个界面,实际上是一种从自然语言映射到编辑工具的功能。所以,你可以说‘删除左边的东西’,它就会识别出左边是什么并调用魔术橡皮擦。你可以说‘嘿,我记得在犹他在岩石更红一些’,它就会稍微增加温暖度。你可以说‘能聚焦中间的东西吗’,它就会围绕中心物体添加一个小渐晕效果。

“这种映射是一个巨大的时间节省者。AI的承诺不仅是提供信息,而且是为你采取行动。我认为这是AI不仅提醒你某事,而是为你完成任务的最完美案例之一。看到它的有效性真的非常酷。

“它甚至会给你建议。AI会查看一张图片并说‘我认为你可能想移除一些旁观者’,然后这些小建议标签就会被填充。最有趣的部分是当你点击这些标签时,它只是在文本框中输入内容。你也可以自己输入。它还有一个语音按钮,非常酷。你可以直接与它对话。AI的进步速度比我想象的要快得多,而我在这个领域是专业人士。”

Pro Res Zoom

作为一名热爱变焦摄影的摄影师,这是我最想与Reynolds讨论的功能。我经常使用智能手机拍照,但在长距离变焦时,我通常需要拿出我的索尼无反相机和70-200mm镜头。我已经写过我对彻底测试Pro Res Zoom的兴奋之情,因为这项技术可以通过使用生成式AI填补数字变焦中的空白,帮助从手机中产生更多可用的变焦照片。

雷诺兹评论说:“根本问题在于,如何在数字变焦时填补像素间的空白。比如,你有一个传感器像素位于远角,另一个位于左下角,你需要填补中间的所有像素。你可以进行插值计算,也可以将它们全部设为某种颜色,例如取平均值。我们已经经历了整个过程,从多帧降噪到多个不同版本的放大器,以实现更好的插值效果。我们还从分块多帧合并发展到了基于概率的逐像素多帧合并……与此同时,放大器也在不断改进。最新一代的放大器是我们迄今为止在Pixel Camera中运行的最大模型……它是一个非常优秀的插值工具。”

“它不仅仅判断黑色和白色,然后中间是灰色。它能够识别出那个黑色像素属于更大的结构,这个结构看起来像是墙面上砖块之间的灰浆。因此,很可能直到某个点都是黑色,之后会变成红色——这比简单地混合黑红要聪明得多。我们需要保留真实的像素,然后填补中间的部分。现在的模型在这方面做得非常好。”

顶部照片是在0.5倍变焦下拍摄的,底部照片则是相同构图下的100倍变焦,拍摄于Pixel 10 Pro上。(图片截取自Jason Hiner/ZDNET)

“我们有一系列的放大器,这是最新的一款。所有的放大器都有各自的瑕疵。不同的放大器有不同的问题。过去有些放大器在处理文字方面非常出色,因为文字有明显的线条,但在处理水时效果很差,因为水本质上是混沌的。这款新的放大器也有自己的瑕疵,但这些瑕疵很难被人类的眼睛察觉,因为新模型在生成真实场景内容方面非常出色。”

“例如,那确实是一片树叶,看起来就像真正的树叶一样,毫无瑕疵。但对于人脸,由于人类大脑中有很大一部分用于识别人脸,任何程度的瑕疵都是不可接受的。对于树叶上的细微瑕疵,你可能永远不会注意到。但如果同样的细微瑕疵出现在脸上,你会立刻察觉——因为我们是社会性动物,设计来识别其他人类。所以,处理好人脸的门槛非常高。”

因此,当Pro Res Zoom识别到人脸时,不会使用AI进行放大处理。

C2PA元数据标记AI

由于谷歌现在是内容来源与真实性联盟(C2PA)的一员,已经开始在其照片中嵌入元数据,以指示是否使用了生成式AI制作照片。这一功能使用的是由谷歌DeepMind创建的水印技术SynthID。雷诺兹深度参与了这个项目,使其成为Pixel Camera的一部分。

“[C2PA]元数据可以标识图像是否经过AI处理,以及图像的历史记录,我们会将其嵌入照片中。”雷诺兹表示,“我亲自担任了这个项目的负责人。虽然我现在很少亲自做这种事情,但我还是接手了这个项目,因为我深知其重要性、复杂性和微妙之处。随着我对这个功能的深入了解,我意识到人们对AI知之甚少,不了解AI能做什么、不能做什么,或者它的进展速度有多快。”

谷歌C2PA元数据的一个例子。

此外:

谷歌Pixel 10系列实测:没想到这款机型会成为我的最爱

向公众普及AI知识

“实际上,世界在认识到AI已经多么先进方面落后了。因此,需要进行一些教育工作。我们意识到,如果用户更好地了解背后的技术,他们会非常喜欢AI所能做的事情。所以在Pro Res Zoom中,我们不处理人脸。我认为这会让人们更加放心。我们还会展示处理前后的对比图——使用新放大器的版本和未使用的版本,让你自己决定AI做了什么,是否可接受。绝大多数人发现这种处理不仅是可以接受的,而且高度偏好。他们希望进行放大处理。但如果看不到对比图,他们可能不会意识到这一点。”

我们还通过内容凭证 [C2PA] 对其进行标注,以便在传输照片时,接收方可以根据这些信息自行决定如何理解和评估这张照片。例如,他们可以判断这是否可能是AI生成的图像,或者确认内容凭证显示这不是AI生成的,从而增加信任度。随着用户对AI知识的增加和实际经验的积累,他们将逐渐更加适应并信任这种技术,就像我们在Pro Res Zoom功能上看到的一样,该功能在推出前的客户满意度就非常高。

随着技术的进步,我们将继续拓展更多功能。可能会将其应用于更多的模式中,提高变焦质量。但我们希望确保这些改进符合用户的期望和理解。因此,我们不仅提供选项和选择的透明度,同时也致力于在保证高客户满意度的前提下推动技术的边界。

谷歌Pixel 10 Pro相机。

Sabrina Ortiz/ZDNET

远摄全景

“我们的相机应用程序中总是隐藏着许多小惊喜,”雷诺兹告诉我。“我们开发的功能比能够实际介绍的多得多。”

Pixel 10 Pro中的一项新摄影功能是远摄全景,谷歌亲切地称其为“5倍远摄全景”。这一功能允许用户利用变焦镜头、新的取景器控制以及高达100兆像素的分辨率拍摄更具电影感的风景照。“通过镜头变焦并拼接全景图,效果非常出色。”雷诺兹说。

然而,谷歌尚未公开的是,他们采用了全新的全景图像捕捉方法。“市场上的许多全景图,包括我们过去的产品,都是基于视频的。”雷诺兹解释道,“这意味着制作全景图时会拍摄100到1000张图片,每张图片只取一小条垂直片段进行拼接。这种方法有两个问题:一是容易产生曲线、拉伸和压缩等瑕疵;二是在30秒内处理如此多的图片非常耗时。”

“为此,我们改用了照片输入的方式,只拍摄五张图片,而非数百张,然后应用完整的HDR Plus、计算摄影和夜视技术进行处理,并保留一些重叠区域进行拼接。这种方法类似于Adobe Lightroom的处理方式。因此,我们现在可以实现夜视全景图,最高可达100兆像素,细节极为丰富,还能启用以前无法使用的变焦功能。例如,在Pixel手机上,你可以使用具有光学品质的2倍变焦,甚至在Pixel Pro上激活5倍远摄。这是一种以计算摄影为核心、基于照片的全景图技术。”

此外:

谷歌Pixel 10 Pro对比iPhone 16 Pro:亲身体验后,胜负一目了然

引导框架(辅助功能)

另一项鲜为人知的功能是引导框架。雷诺兹特别指出了这一点。“引导框架是一种辅助功能,如果用户视力受损,我们利用Gemini帮助他们构图。”雷诺兹解释道,“在这种情况下,用户指向相机,激活引导框架,系统会提示‘这是一张森林场景的照片,右侧有几棵树,左侧有一人正在微笑,适合自拍’。然后它会自动拍照。对于那些看不清屏幕的用户来说,这项功能有助于拍摄自拍和照片,因为照片是人们交流的重要方式。无论视力是否受限,人们都通过图片进行沟通。所以这项功能赋予了他们这种能力。”

自动最佳拍摄

我还询问了雷诺兹关于今年从最佳拍摄进化到自动最佳拍摄的情况,得知这一功能实际上运用了更多的机器学习技术。“自动最佳拍摄更像是传统的处理方式。”雷诺兹评论道,“你可以将其想象成一棵决策树,因为这正是该功能的本质。当用户按下快门键时,如果拍摄完美,每个人都在微笑且面向镜头,那么就只保存这一张照片。”

假设拍摄效果不够理想,我们将延长快门开启时间,仔细检查每一帧图像。这可能涉及在短短几秒内查看多达150帧。如果发现有更佳的一帧,我们会选取并保存这一帧,以全HDR Plus质量进行处理。因此,当你浏览图库时,会看到我们选定的主要照片,称为“最佳镜头”。这是决策树的一个步骤。

如果我们检查了150帧,未能找到完美的那一帧,但发现了两帧接近完美且各有特色(例如不同的面部表情),那么我们会保存这两帧,然后通过“最佳选择”功能将它们融合成一张完美的照片。“最佳镜头”会特意选择一系列图片,确保至少有一张照片中每个人都在微笑。因此,在查看150张照片后,大多数情况下都能得到满意的照片。实际上很少需要使用“最佳选择”,因此称其为“自动最佳选择”有些不寻常,因为现实中并不经常使用,它位于决策树的末端。

目标是用户按下快门一次就能获得一张完美的照片,无论我们如何实现这一点。我们不希望用户再拍三张相同的人像照。毕竟,为什么要在随机拍摄三张照片,当AI可以查看150张照片呢?所以,我们建议只需按一次快门,等待几秒钟。你会在用户界面上看到它围绕人脸画框,当认为捕捉成功时,这些框会变成金色。按下快门,等待几秒,最后看看最终结果。

关于Tensor G5的不同之处

谷歌在2025年通过其Tensor G5芯片为Pixel 10手机提供了强大的动力——从过去的三星代工转向台积电的3纳米工艺,利用台积电的先进技术提升AI性能。我向雷诺兹询问了这一变化的影响。

“Tensor G5带来的提升是我见过的最大幅度之一,特别是在处理延迟方面。”他提到,“Pro Res Zoom的第一版处理时间长达两分钟,而到了后期,当它被移植到Tensor G5上,所有问题都解决后,这个时间缩短到了几秒……因此,Tensor G5 TPU的性能提升了60%,这一点非常明显。”

此外:

如果你正在考虑购买Pixel 10 Pro,我推荐这五款手机,原因如下

驱动Pixel摄影的AI模型

由于Pixel 10最重要的新功能大多由AI进步推动,我想了解更多关于Pixel相机团队如何利用谷歌内部的AI能力的信息。

“这并不是说有一个单一的Gemini模型。”雷诺兹说,“它针对每一个特定的使用场景进行了极其精细的调校和测试……谷歌内部有比外界所见更多的Gemini版本。你需要决定,是提示这个Gemini还是微调这个Gemini?所有这些都是为了特定实施的高度定制。”例如,他补充说,“魔术擦除是生成性的,但它不是Gemini。”

最终思考

在全球十余家构建前沿AI模型的公司中,只有谷歌同时制造自己的智能手机。而随着Pixel 10 Pro的推出,这种结合的影响开始显现。

谷歌

2025年谷歌新品发布会:Pixel 10 Pro、Fold、Watch 4等新品发布

Pixel 10 Pro Fold与三星Galaxy Z Fold 7对比:谁更胜一筹?

Pixel 10上的五大AI特性,谷歌认为能赢得你的青睐(包括Fold)

升级至Pixel 10 Pro?看看它与所有旧款谷歌手机的比较

(以上内容均由Ai生成)

你可能还想读

芯纬内部人士抛售超10亿美元股票引发警报

芯纬内部人士抛售超10亿美元股票引发警报

快速阅读: 纳斯达克上市公司CoreWeave因内部人士大量抛售股票受关注,10月交易超10亿美元,股价承压下跌,引发投资者对该公司信心的质疑。 纳斯达克上市的CoreWeave (CRVW)因内部人士大量抛售股票而受到广泛关注。10月,一 […]

发布时间:2025年10月24日
升腾首席分析与AI官:用数学背景解决医疗问题

升腾首席分析与AI官:用数学背景解决医疗问题

快速阅读: 安森斯首席分析与人工智能官卡提克·拉贾强调,人工智能是一类问题而非单一事物,需识别并应用正确方法解决。他领导团队利用AI优化医疗流程,提高决策效率,同时注重人才培养和道德领导。 卡提克·拉贾,这家覆盖16个州的大型医疗系统首席分 […]

发布时间:2025年10月24日
格拉斯利宣布法官使用AI致法庭命令出错,实施新政

格拉斯利宣布法官使用AI致法庭命令出错,实施新政

快速阅读: 美国参议院司法委员会主席格拉斯利宣布收到法官们关于AI导致法院命令出错的回应,法官温盖特和尼尔斯承认错误并实施新政策,确保命令准确性,同时法院行政办公室成立AI咨询工作组,发布临时指导方针。 美国参议院司法委员会主席查克·格拉斯 […]

发布时间:2025年10月24日
AI视频生成系统不断进步,ChatGPT创始人更新发展计划

AI视频生成系统不断进步,ChatGPT创始人更新发展计划

快速阅读: 本周,顶尖开发者公布人工智能视频生成系统的最新进展,包括即将推出的安卓应用。该技术融合多种特性,引发艺术与伦理讨论,但仍不断进步,输出效果惊人。 基于人工智能的视频生成系统集多种特性于一身。的确,它们引发了关于艺术、创作者角色及 […]

发布时间:2025年10月24日
美法官承认职员用AI起草错误命令

美法官承认职员用AI起草错误命令

快速阅读: 美国地方法官温盖特承认其法律助理使用AI程序起草了有误的法院命令,引发争议。温盖特表示将加强审查流程,避免类似错误。参议员格拉斯利呼吁制定更明确的AI使用政策。 密西西比州的一名联邦法官承认,其工作人员使用人工智能起草了一份有误 […]

发布时间:2025年10月24日
ChatGPT遭遇重大故障,用户报告服务中断

ChatGPT遭遇重大故障,用户报告服务中断

快速阅读: ChatGPT遭遇重大技术故障,OpenAI确认“高频率错误”,用户反馈广泛。故障始于周四上午11时(美国东部时间),Downdetector数据显示问题激增。 受连续强降雨影响,南部多地出现洪水,相关部门紧急启动防汛响应。Ch […]

发布时间:2025年10月24日
OpenAI推新浏览器Atlas,挑战Google Chrome

OpenAI推新浏览器Atlas,挑战Google Chrome

快速阅读: OpenAI推出ChatGPT Atlas浏览器,挑战谷歌Chrome,集成AI功能助用户高效完成任务,计划近期增加标签组和广告拦截器等新特性。 萨姆·阿尔特曼的OpenAI继续将其生成式AI模型整合到全球大多数人的日常工具—— […]

发布时间:2025年10月24日
ChatGPT短暂故障后恢复,医疗咨询模式引关注

ChatGPT短暂故障后恢复,医疗咨询模式引关注

快速阅读: 医学研究人员报告AI医疗失误案例,患者因咨询ChatGPT致溴化物中毒精神错乱。专家长期担忧此问题,OpenAI推出专门医疗建议模式应对。 几周前,一位医学研究人员报告了一起由AI引发的医疗失误案例,详细描述了一名患者因咨询Ch […]

发布时间:2025年10月24日