谷歌Gemini2.5图像处理升级：不仅能识物还能懂抽象概念

发布时间：2025年7月23日来源：szf

快速阅读: 据相关媒体报道，谷歌推出Gemini 2.5新功能“对话式图像分割”，支持自然语言指令分析图像，识别物体、关系查询及抽象概念。开发者可通过API调用，提升图像处理效率。

记者获悉，近日，谷歌为其Gemini 2.5 AI模型推出了一项新功能——“对话式图像分割”，允许用户通过自然语言提示直接分析和突出显示图像内容。这项技术不仅能够识别常见的物体类别，还能理解和执行更为复杂的指令，如关系查询、基于逻辑的指令以及抽象概念的识别。

具体来说，Gemini现在可以处理诸如“撑伞的人”、“所有非坐着的人”等关系查询；能够根据“杂物”或“损坏”等抽象概念来识别图像中的相应部分；还能读取图像中的文字，如展示柜中的“开心果果仁蜜饯”。

谷歌强调，这项技术在多个领域都有广泛的应用前景。在图像编辑方面，设计师可以仅通过语音指令精确选中所需区域；在工作场所安全检查中，Gemini能够自动识别照片或视频中的违规行为；在保险行业中，理赔员可以快速标记受损建筑，提高工作效率。

此外，谷歌还提供了友好的开发者接口。开发者可以通过Gemini API直接访问这一功能，所有请求由具备该功能的Gemini模型处理，返回结果包括图像区域的坐标、像素掩码和描述性标签，方便后续开发。为了达到最佳效果，谷歌推荐使用gemini-2.5-flash模型，并将thinkingBudget参数设为零以实现即时响应。开发者可以在Google AI Studio或Python Colab上进行初步测试。

(以上内容均由AI生成)