谷歌Gemini2.5图像处理升级:不仅能识物还能懂抽象概念
快速阅读: 据相关媒体报道,谷歌推出Gemini 2.5新功能“对话式图像分割”,支持自然语言指令分析图像,识别物体、关系查询及抽象概念。开发者可通过API调用,提升图像处理效率。
记者获悉,近日,谷歌为其Gemini 2.5 AI模型推出了一项新功能——“对话式图像分割”,允许用户通过自然语言提示直接分析和突出显示图像内容。这项技术不仅能够识别常见的物体类别,还能理解和执行更为复杂的指令,如关系查询、基于逻辑的指令以及抽象概念的识别。
具体来说,Gemini现在可以处理诸如“撑伞的人”、“所有非坐着的人”等关系查询;能够根据“杂物”或“损坏”等抽象概念来识别图像中的相应部分;还能读取图像中的文字,如展示柜中的“开心果果仁蜜饯”。
谷歌强调,这项技术在多个领域都有广泛的应用前景。在图像编辑方面,设计师可以仅通过语音指令精确选中所需区域;在工作场所安全检查中,Gemini能够自动识别照片或视频中的违规行为;在保险行业中,理赔员可以快速标记受损建筑,提高工作效率。
此外,谷歌还提供了友好的开发者接口。开发者可以通过Gemini API直接访问这一功能,所有请求由具备该功能的Gemini模型处理,返回结果包括图像区域的坐标、像素掩码和描述性标签,方便后续开发。为了达到最佳效果,谷歌推荐使用gemini-2.5-flash模型,并将thinkingBudget参数设为零以实现即时响应。开发者可以在Google AI Studio或Python Colab上进行初步测试。
(以上内容均由AI生成)