谷歌Gemini 3发布,慢工出细活赢得AI竞赛
快速阅读: 谷歌发布Gemini 3,更智能、更快且免费,强调质量而非发布日期,利用Gemini 3构建Gemini 4,提高文本渲染准确性,团队重视用户反馈持续改进。
上周,我走进谷歌旧金山大楼的一间会议室时,原本以为会看到典型的科技简报设置——几排椅子对着一堵屏幕墙,由一位公司代表管理幻灯片。然而,我发现自己置身于一个更像团体治疗的场景中,十几位精心挑选的测试者和创作者围坐在一圈舒适的椅子中。这其中包括我,以及Gemini 3团队成员,该产品刚刚公开发布,而Nano Banana Pro则将在次日亮相。
谷歌的Gemini 3终于面世,它更智能、更快,并且免费提供访问。这种快速的发布时间表非常具有代表性。人工智能行业正处于前所未有的竞争之中,OpenAI、Anthropic、谷歌等公司都在不断努力吸引用户注意,证明其模型比其他竞争对手更具价值。
在与Gemini模型的高级总监兼产品经理Tulsee Doshi、Gemini API的产品经理Logan Kilpatrick和图像与视频产品负责人Nicole Brichtova的交谈中,我深入了解了这些高调发布背后的决策、权衡和挑战。以下是我们在75分钟对话中突出的三个细节。
首先,Gemini 3为何推迟发布。从5月的谷歌I/O大会推出Gemini 2.5 Pro到11月Gemini 3的问世,这一时间间隔显得相当长,尤其是在整个行业AI发展迅速的背景下。当谈及时间线问题时,Doshi解释说,延迟的原因在于双管齐下的策略。在预训练阶段,团队设定了雄心勃勃的目标,旨在实现“最前沿的推理性能”和“真实的细腻度与深度”。但更大的因素在于后期工作,重点放在提高可用性的改进上,例如更好的工具使用体验和根据2.5版本反馈精炼模型的人格特质。
团队从之前的实验模型发布策略中学到了教训。“我们之前多次尝试过这种实验模型发布的模式,”Doshi说,“开发者的反馈是,这导致了很多变化。”开发者每天醒来都会发现事情大不相同,需要测试新的实验Gemini模型,这带来了“真正的认知和时间成本”。这一次,他们采取了不同的方法。“我们延长了迭代周期,将模型交给用户,收集反馈,利用这些反馈再次迭代模型,这个过程进行了几轮。”Doshi解释道。最后几周成为了一次紧张的冲刺,团队集中精力解决各种问题,确定问题是出现在服务端还是模型本身,并尽可能地修复。
此外,跨多个谷歌服务协调发布增加了额外的复杂性。“让整个谷歌团队达成一致,并搭建基础设施以支持该模型服务于数亿用户是非常困难的,”Kilpatrick表示。目标是在Gemini应用程序、谷歌搜索和AI Studio中同步推出,这需要比以往更多的协调工作。
推动这些决策的哲学非常明确:“我们尽量不被日期驱动,而是追求质量。”Doshi指出。团队希望避免发布一个未经打磨的产品,在公众面前进行测试和迭代。相反,他们选择在幕后进行这项工作。
其次,Gemini 3正在帮助构建Gemini 4。Doshi继续说道:“收到的反馈量几乎超出了我们的管理能力。”当我询问他们是否使用Gemini模型来分析和理解Gemini模型的成功时,Doshi的回答出乎我的意料:“实际上很多,效果非常好。”
团队广泛使用Gemini来聚类反馈并识别来自大量用户报告的模式。但Doshi也强调了一个重要的平衡点:“我们希望团队建立同理心,但如果抽象程度过高,这种同理心就会减弱。”如果Gemini完全抽象化反馈,团队可能会失去对用户实际痛点的感知。因此,他们使用Gemini来找到模式,但仍然让团队阅读真实的用户反馈,以保持对用户困扰的敏感度。
最后,谷歌刚刚在搜索引擎中推出了Gemini 3,这里详细介绍了它的功能及如何试用。
除了分析反馈之外,他们还在利用双子星工具加速测试过程。基尔帕特里克团队在产品方面进一步推进了这一进程。“我们更多地使用双子星3持续编码,这极大地促进了UI的改进。”他说道。基尔帕特里克补充说:“双子星4将由双子星3创建。或许,一些与双子星4互动的产品体验正在由双子星3创造。”
多希迅速补充说:“我不确定我会说双子星构建了自己,但我们非常接近于如何整合这些不同的部分,让双子星加速。”
文本渲染终于(大部分)实现
纳米香蕉专业版最令人印象深刻的改进之一是AI长期以来难以掌握的一项技能——文本在AI生成的图像中现在看起来非常准确。
妮可·布里奇沃向我们展示了通过极其简单的提示创建的信息图表示例。当在房间的大屏幕上观看这些示例时,我仔细检查每一个字,寻找明显的AI生成文本标志,比如拼写错误、虚构词汇以及迄今为止困扰图像生成模型的看似外星的无意义字符。令我惊讶的是,这个极其复杂的信息图表毫无瑕疵。
布里奇沃称之为“精选率”的提高从纳米香蕉的上一版本到现在的变化十分显著。“以前,你可能需要生成10个这样的图表,其中只有一个可能是完美的。”她说,“而现在,你生成10个,可能只有一两个实际上无法使用。”
此外:
我尝试了NotebookLM的新视觉辅助功能——它说我去了‘伯克利’
更引人注目的是,失败的方式也变得更加复杂。多希提到几个月前的示例中错误显而易见,但最近,她开始怀疑某些看似真实的单词是否真的存在。“看起来很合理,没有奇怪之处——但不是,那不是真正的单词。”模型已经如此优秀,以至于它可以创造出看起来属于英语的假词。
一位现场测试者分享了使用纳米香蕉专业版从研究论文生成信息图表的经验。第一次尝试非常成功,最初的几次迭代也很顺利。但在第五轮编辑之后,情况开始恶化,模型开始造词,甚至插入其他语言的片段。
布里奇沃承认这是一个已知的局限。“多轮对话是我们持续改进的地方。”她说,“超过三轮后,基本上你需要重置对话。与模型对话的时间越长,它的表现就越容易出问题。”她强调这是他们正在积极解决的问题,但对于一次性生成,质量已经达到了令人印象深刻的程度。
庆祝时间不多
穿着纳米香蕉专业版毛衣的AI杰森·豪威尔。
杰森·豪威尔/ ZDNET
经过75分钟的坦诚交谈后,我加入了小组,亲自体验了双子星3和纳米香蕉专业版的一些演示。给我留下深刻印象的是看到纳米香蕉专业版以显著的准确性生成了我的面部图像。尽管测试过许多图像生成器,但这还是第一次我难以区分AI生成的版本和真实照片。对我的实际面部特征的忠实度非常高,节日毛衣也是个不错的附加点。
然而,给我留下最深印象的不仅是展示的技术,还有房间里的氛围。尽管双子星3前一天成功发布,纳米香蕉专业版即将推出,引起了明显的兴奋,但团队成员对于过早庆祝表现出明显的犹豫。
鉴于人们对双子星3和原始纳米香蕉病毒式的成功反应积极,我以为纳米香蕉专业版肯定能大获成功。然而,团队并不急于自庆。他们希望看到发布成功后再庆祝。即使这样,庆祝也将是短暂的,因为AI发展的快速步伐意味着他们需要立即回到工作中准备下一个版本。
在一个公司竞相推出下一个大型模型的行业中,谷歌的方法因其愿意为了质量推迟发布、根据具体反馈迭代并使用自己的AI来构建更好的AI而显得与众不同。然而,最能说明问题的是,即使在取得重大胜利后,团队也明白几乎没有时间休息。
我们测试的最佳产品2025年:ZDNET推荐的手机、笔记本电脑、电视等
Windows Insider计划令人困惑
2025年黑色星期五百元以下最佳交易:现有20项促销活动
Linux Mint对比Zorin OS:我比较了这两款Windows替代系统,并给出建议
(以上内容均由Ai生成)