阿里巴巴发布能看、能懂、能思考的视觉推理新模型
快速阅读: 据《Neowin.net》最新报道,阿里巴巴推出新视觉推理模型通义千问Max,可理解照片和视频内容并提供解决方案。它能在多个领域助力用户任务完成,如插画设计、视频脚本创作等。欲体验,请访问指定网址选择该模型并上传视觉内容。未来,阿里计划提升图像识别准确性、处理复杂任务及扩展交互方式。
阿里巴巴,这家中国科技巨头,宣布推出了一款名为通义千问Max的新视觉推理模型。这款模型的独特之处在于它能够理解照片和视频的内容,然后基于这些信息进行分析和推理以提供解决方案。阿里巴巴表示,通过这个模型,他们正在填补文本型AI模型与现实世界信息之间的鸿沟。借助视觉推理能力,该模型能够“观察”、“理解”并“思考”世界中的事物。该公司表示,该模型在解析图像和识别关键元素方面表现出色,并且在应用范围上非常灵活,可用于插画设计、视频脚本创作及角色扮演等多个领域。和其他AI聊天机器人类似,通义千问Max可以在工作、教育或个人生活中帮助用户完成任务。凭借其视觉功能,它还能在这些领域中应对更多任务,比如带有图表的数学和物理问题,或者根据食谱图片教用户做一道菜。阿里方面表示,通义千问Max只是这一模型的首个版本,并概述了未来版本的改进计划。首先,它希望通过对齐技术提高图像识别的准确性,以验证观察结果。其次,它希望让模型更好地处理多步骤任务和复杂问题,使其能够操作手机、电脑并玩游戏。最后,它计划从仅限文本交互扩展到支持工具验证和视觉生成。
要开始使用通义千问Max,请访问[chat.qwen.ai](http://chat.qwen.ai),在左上角模型下拉菜单中点击“展开更多模型”,然后选择通义千问Max。之后,进入聊天框开始使用,别忘了附带一些视觉内容,看看它能做什么。
(以上内容均由Ai生成)