人类在阅读房间方面仍然优于 AI
快速阅读: 据《欧亚评论》最新报道,研究发现,人类在解读移动场景中的社交互动优于现有AI模型,这对自动驾驶等技术至关重要。AI难以识别行人意图或对话场景,因受静态图像处理脑区影响。此成果发表于ICLR会议。
研究显示,人类在描述和解读移动场景中的社交互动方面比当前的AI模型更为出色——这对自动驾驶汽车、辅助机器人等依赖AI系统导航真实世界的其他技术而言,是一种必要技能。
这项由约翰斯·霍普金斯大学科学家领导的研究发现,人工智能系统在理解与人交互所需的社交动态和背景方面表现欠佳,并暗示这一问题可能源于AI系统的基础设施。研究显示,人类在描述和解读移动场景中的社交互动方面比当前的AI模型更为出色——这对自动驾驶汽车、辅助机器人等依赖AI系统导航真实世界的其他技术而言,是一种必要技能。
“例如,自动驾驶汽车的AI需要识别人类司机和行人的意图、目标和行为。你希望它知道行人即将朝哪个方向行走,或者两个人是在交谈还是准备过马路,”主要作者、约翰斯·霍普金斯大学认知科学助理教授雷拉·伊斯克(Leyla Isik)说道,“任何时候你希望AI与人类互动时,你都希望它能够识别人们在做什么。我认为这揭示了这些系统目前还无法做到这一点。”
研究显示,人类在描述和解读移动场景中的社交互动方面比当前的AI模型更为出色——这对自动驾驶汽车、辅助机器人等依赖AI系统导航真实世界的其他技术而言,是一种必要技能。
博士生凯西·加西亚(Kathy Garcia),当时在伊斯克实验室工作,也是共同第一作者,将在国际学习表征会议(ICLR)上展示研究结果。
为了确定AI模型与人类感知相比的表现如何,研究人员让参与者观看三秒长的视频片段,并按照一到五的评分标准评估理解社交互动的关键特征。这些片段包括人们相互互动、并肩活动或独自进行独立活动。
然后,研究人员要求超过350个AI语言、视频和图像模型预测人类会如何评价这些视频以及他们的大脑会对观看这些视频作出何种反应。对于大型语言模型,研究人员让AI评估简短的人类撰写标题。
为了确定AI模型与人类感知相比的表现如何,研究人员让参与者观看三秒长的视频片段,并按照一到五的评分标准评估理解社交互动的关键特征。这些片段包括人们相互互动、并肩活动或独自进行独立活动。参与者在所有问题上大多意见一致;然而,无论大小或训练数据如何,AI模型都没有做到。
视频模型无法准确描述视频中人们正在做的事情。即便为图像模型提供一系列静态帧进行分析,它们也无法可靠地预测人们是否在交流。语言模型在预测人类行为方面表现更优,而视频模型在预测大脑神经活动方面表现更优。
为了确定AI模型与人类感知相比的表现如何,研究人员让参与者观看三秒长的视频片段,并按照一到五的评分标准评估理解社交互动的关键特征。这些片段包括人们相互互动、并肩活动或独自进行独立活动。
研究人员表示,这些结果与AI在阅读静态图像方面的成功形成了鲜明对比。“仅靠识别图片中的物体和面孔是不够的。那是第一步,它在AI领域取得了很大进展。但现实生活不是静止的。我们需要AI理解场景中正在展开的故事。理解社交互动的关系、背景及动态是下一步,这项研究表明AI模型开发可能存在缺陷,”加西亚说。
研究人员相信,这是因为AI神经网络受到了处理静态图像的大脑区域结构的启发,这与处理动态社交场景的大脑区域不同。
“有很多细微差别,但主要结论是,没有一款AI模型能在各方面都与人类大脑和行为对场景的反应相匹配,就像它们对静态场景所做的那样,”伊斯克说,“我认为人类处理场景的方式中有些根本性的东西,这些模型未能捕捉。”
(以上内容均由Ai生成)