Google 的 Gemini 2.5 Pro 是您没有使用的最智能的型号 – 它对企业 AI 很重要的 4 个原因
快速阅读: 据《VentureBeat 公司》最新报道,谷歌推出新一代星脉增强版,其透明推理和强大编码能力引人注目。该模型在推理、多模态集成和上下文窗口等方面表现出色,有望成为企业应用的重要选择。但其完整潜力还需进一步观察,包括价格和延迟等问题。
加入我们的每日和每周通讯,获取行业领先的人工智能覆盖的最新更新和独家内容。了解更多周二发布的**星脉二代增强版**并未完全主导新闻周期。在同一周,**OpenAI**的图像生成更新点亮了社交媒体,凭借灵感来自**吉卜力工作室**的头像和令人惊叹的即时渲染。然而,尽管人们的注意力转向了OpenAI,谷歌可能已经悄然发布了迄今为止最企业级的推理模型。**星脉二代增强版**标志着谷歌在基础模型竞赛中的重大飞跃——不仅在基准测试中,而且在可用性方面。基于早期实验、基准数据和亲身体验的开发者反馈,这是一款值得企业技术决策者关注的模型,特别是那些历史上倾向于为生产级别的推理选择**OpenAI**或**Claude**的用户。
以下是企业团队评估**星脉二代增强版**的四个主要收获:
### 1. 透明、结构化的推理——一种新的思维链清晰度标准
**星脉二代增强版**的独特之处不仅仅在于它的智能,还在于它如何清晰地展示其工作过程。谷歌的逐步训练方法产生了结构化的思维链(CoT),不像我们从**DeepSeek**等模型看到的那样显得漫无目的地胡说八道或猜测性质。而且这些CoT不会被截断成浅显的总结,就像我们在**OpenAI**模型中看到的那样。新的**星脉二代增强版**以编号步骤、子列表和内部逻辑呈现想法,非常连贯且透明。在实际应用中,这是信任和可引导性的突破。
企业用户在评估关键任务的输出时——如审查政策影响、编码逻辑或总结复杂的研究——现在可以清楚地看到模型是如何得出答案的。这意味着他们可以更自信地验证、纠正或重新导向它。这是一个重大的进步,与许多LLM输出仍然存在的“黑箱”感觉相比。
要深入了解其实际运作方式,请查看我们实测**星脉二代增强版**的视频分解。我们讨论的一个例子是:当被问及大型语言模型的局限性时,**星脉二代增强版**显示出惊人的意识。它列举了常见的弱点,并将其分类为“物理直觉”、“新颖概念合成”、“长期规划”和“伦理细微差别”等领域,提供了一个帮助用户理解模型知道什么以及它是如何解决问题的框架。企业技术团队可以利用这一能力:调试复杂的推理链条;在关键应用程序中更好地理解特定领域的模型局限性;向利益相关者提供更透明的AI辅助决策;通过研究模型的方法来提升自身的批判性思维。
值得注意的一个限制是:虽然这种结构化推理在**星脉应用**和**Google AI Studio**中可用,但尚未通过API访问——这对希望将此功能集成到企业应用中的开发者来说是一个不足。
—
### 2. 真正的前沿竞争者——不仅仅是纸上谈兵
该模型目前在**Chatbot Arena**排行榜上以显著优势领先——比下一个最佳模型高出35个Elo点——值得一提的是,这个下一个最佳模型是**星脉二代增强版**发布后的第二天发布的**OpenAI 4o更新**。虽然基准优势通常是短暂的(因为新模型每周都会发布),但**星脉二代增强版**确实感觉有所不同。
截至发稿时间,**星脉二代增强版**在奖励深度推理的任务中表现出色:编码、微妙的问题解决、跨文档合成,甚至抽象规划。在内部测试中,它在以前难以破解的基准测试中表现尤其出色,如“人类的最后一场考试”,这是暴露LLM在抽象和微妙领域弱点的最爱。(你可以在这里查看谷歌的公告,以及所有基准信息。)
企业团队可能不关心哪个模型赢得哪个学术排行榜。但他们会在乎这个模型能够思考——并展示它是如何思考的。氛围测试很重要,这一次,轮到谷歌感到他们通过了。正如备受尊敬的AI工程师**Nathan Lambert**指出:“谷歌再次拥有最好的模型,因为他们应该一开始就启动了整个AI繁荣。战略性错误已经被纠正。”企业用户应该将此视为谷歌不仅赶上了竞争对手,而且在对企业应用至关重要的能力上可能超越他们的机会。
—
### 3. 最后:谷歌的编码能力很强
历史上,谷歌在面向开发者的编码辅助方面落后于**OpenAI**和**Anthropic**。**星脉二代增强版**改变了这一点——以一种大方式。在动手测试中,它表现出强大的一次性能力,包括构建一个在第一次导出到**Replit**时就能运行的**俄罗斯方块**游戏——无需调试。
更值得注意的是:它清晰地推理代码结构,有条理地标记变量和步骤,并在编写一行代码之前就阐明了自己的方法。该模型与**Anthropic**的**Claude 3.7 Sonnet**相当,后者一直被认为是代码生成的领导者,也是**Anthropic**在企业领域成功的主要原因之一。但**星脉二代增强版**提供了关键优势:巨大的**100万个token上下文窗口**。**Claude 3.7 Sonnet**现在才开始提供**50万个token**。这个巨大的上下文窗口开启了全新的可能性,可以在整个代码库中进行推理,阅读内联文档,并在多个相互依赖的文件之间工作。
软件工程师**Simon Willison**的经验展示了这一优势。当他使用**星脉二代增强版**在他的代码库中实现一个新功能时,该模型识别了**18个不同文件**中必要的更改,并在大约45分钟内完成了整个项目——平均每修改一个文件不到三分钟。对于正在试验代理框架或AI辅助开发环境的企业来说,这是一个重要的工具。
—
### 4. 带有类似代理行为的多模态集成
虽然一些模型如**OpenAI**最新的**4o**可能在炫目的图像生成方面更具吸引力,但**星脉二代增强版**感觉上像是在悄悄重新定义什么是基于事实的、多模态的推理。例如,在**VentureBeat**的**Ben Dickson**的手动测试中,演示了该模型从一篇关于搜索算法的技术文章中提取关键信息并创建相应的SVG流程图的能力——然后在后来展示了一个带有视觉错误的渲染版本时改进了该流程图。
这种多模态推理水平使以前无法用纯文本模型实现的新工作流程成为可能。在另一个例子中,开发人员**Sam Witteveen**上传了一张拉斯维加斯地图的简单截图,并询问4月9日附近有什么**Google**活动(见这段视频的第16分35秒)。该模型识别了位置,推断了用户的意图,进行了在线搜索(启用接地功能),并返回了关于**Google Cloud Next**的准确详细信息——包括日期、地点和引用。所有这些都是在没有定制代理框架的情况下完成的,只需核心模型和集成搜索。
该模型实际上对这种多模态输入进行推理,而不仅仅是查看它们。它暗示了企业工作流在未来六个月的样子:上传文档、图表、仪表板——并让模型根据内容进行有意义的综合、规划或行动。
—
### 奖励:它只是……有用
虽然这不是一个单独的收获,但值得注意的是:这是第一个将谷歌拉出LLM“边缘地带”的**星脉**版本。之前的版本从未真正进入日常使用,因为像**OpenAI**或**Claude**这样的模型设定了议程。**星脉二代增强版**感觉不同。推理质量、长上下文实用性以及实用的UX触感——如**Replit导出**和**Studio**访问——使其成为一个难以忽视的模型。
话虽如此,现在还处于早期阶段。该模型尚未进入**Google Cloud**的**Vertex AI**,尽管谷歌表示很快就会推出。一些延迟问题仍然存在,特别是在更深层次的推理过程中(处理这么多思维标记意味着什么对于首次标记的时间?),价格也尚未披露。从我观察到的关于其写作能力的另一个警告:**OpenAI**和**Claude**仍然感觉在生成易于阅读的散文方面具有优势。**星脉二代增强版**感觉非常结构化,缺乏一点对话的流畅性,这是我最近注意到**OpenAI**特别投入很多精力的地方。
但对于企业在性能、透明性和规模之间取得平衡的情况,**星脉二代增强版**可能已经使谷歌再次成为一个有力的竞争者。正如**Zoom**首席技术官**Xuedong Huang**昨天与我交谈时所说:“在LLM生产方面,谷歌仍然牢牢处于竞争之中。**星脉二代增强版**给了我们一个相信的理由,明天可能比昨天更真实。”
—
观看完整视频的企业影响在这里:
**VB Daily的商业应用场景每日洞察**
如果你想给老板留下深刻印象,**VB Daily**会帮你做到。我们给你提供公司如何使用生成式AI的内幕消息,从监管变化到实际部署,这样你就可以分享见解以获得最大回报。立即订阅阅读我们的隐私政策。感谢订阅。
查看更多**VB通讯**。
(以上内容均由Ai生成)