阿里巴巴发布能看、能懂、能思考的视觉推理新模型

发布时间：2025年3月29日来源：szf

快速阅读: 据《Neowin.net》最新报道，阿里巴巴推出新视觉推理模型通义千问Max，可理解照片和视频内容并提供解决方案。它能在多个领域助力用户任务完成，如插画设计、视频脚本创作等。欲体验，请访问指定网址选择该模型并上传视觉内容。未来，阿里计划提升图像识别准确性、处理复杂任务及扩展交互方式。

阿里巴巴，这家中国科技巨头，宣布推出了一款名为通义千问Max的新视觉推理模型。这款模型的独特之处在于它能够理解照片和视频的内容，然后基于这些信息进行分析和推理以提供解决方案。阿里巴巴表示，通过这个模型，他们正在填补文本型AI模型与现实世界信息之间的鸿沟。借助视觉推理能力，该模型能够“观察”、“理解”并“思考”世界中的事物。该公司表示，该模型在解析图像和识别关键元素方面表现出色，并且在应用范围上非常灵活，可用于插画设计、视频脚本创作及角色扮演等多个领域。和其他AI聊天机器人类似，通义千问Max可以在工作、教育或个人生活中帮助用户完成任务。凭借其视觉功能，它还能在这些领域中应对更多任务，比如带有图表的数学和物理问题，或者根据食谱图片教用户做一道菜。阿里方面表示，通义千问Max只是这一模型的首个版本，并概述了未来版本的改进计划。首先，它希望通过对齐技术提高图像识别的准确性，以验证观察结果。其次，它希望让模型更好地处理多步骤任务和复杂问题，使其能够操作手机、电脑并玩游戏。最后，它计划从仅限文本交互扩展到支持工具验证和视觉生成。

要开始使用通义千问Max，请访问[chat.qwen.ai](http://chat.qwen.ai)，在左上角模型下拉菜单中点击“展开更多模型”，然后选择通义千问Max。之后，进入聊天框开始使用，别忘了附带一些视觉内容，看看它能做什么。

(以上内容均由Ai生成)