AI 无需人工干预即可学习视觉和声音的连接方式
快速阅读: 据《麻省理工学院》最新报道,MIT和其他机构的研究人员合作,开发了一种新方法,通过改进模型架构和训练方式,增强AI通过视听联动学习的能力。这一方法在视频检索和场景分类中表现出色,未来有望应用于机器人和大语言模型。
麻省理工学院与其他机构的研究人员合作,开发出一种新方法,进一步增强了人工智能模型通过视觉与听觉联动学习的能力。这种方法在新闻报道和电影制作等领域可能发挥重要作用,比如,模型能够通过自动视频和音频检索来整理多媒体内容。从长远来看,这项研究可以提升机器人理解现实世界环境的能力,因为听觉和视觉信息通常是紧密相连的。
在这项研究中,研究人员基于之前的工作,创建了一种无需人工标注就能对齐视频片段中相应音频和视觉数据的新方法。他们调整了原始模型的训练方式,使其能够更精确地学习特定视频帧与发生时刻的音频之间的对应关系。此外,研究人员还对模型架构进行了优化,以帮助系统平衡两个不同的学习目标,从而提升整体性能。
这些相对简单的改进综合起来,显著提升了模型在视频检索任务和视听场景分类中的准确性。例如,新方法能够自动且精准地将关门的声音与视频中的关门画面匹配起来。“我们在构建能够像人类一样处理世界的AI系统,这意味着同时接收音频和视觉信息,并能无缝处理这两种模态。展望未来,如果能将这种音视频技术融入到我们日常使用的工具中,比如大型语言模型,它可能会开启许多新的应用场景,”麻省理工学院研究生、该研究论文的共同作者安德烈·鲁迪钦科说道。
参与这项研究的还有德国歌德大学的首席作者埃德森·阿劳霍、前麻省理工学院博士后袁恭、现任麻省理工学院博士后索拉布赫·昌德·巴蒂、IBM Research的塞缪尔·托马斯、布莱恩·金斯伯里和列奥尼德·卡尔林斯基,以及麻省理工学院-IBM沃森人工智能实验室的首席科学家兼经理罗杰里奥·费里斯、麻省理工学院计算机科学与人工智能实验室(CSAIL)口语系统组的高级研究科学家兼负责人詹姆斯·格拉斯,以及资深作者希尔德·奎因,她同时也是歌德大学计算机科学教授及麻省理工学院-IBM沃森人工智能实验室的附属教授。
这项工作将在计算机视觉与模式识别会议(CVPR)上发布。在同步化方面,这项工作建立在研究人员几年前开发的一种机器学习方法的基础上。这种方法提供了一种高效的方式,使多模态模型能够在没有人工标注的情况下同时处理音频和视觉数据。研究人员向这个名为CAV-MAE的模型输入未标注的视频片段,它将视觉和音频数据分别编码为称为标记的表示形式。利用录音的自然音频,模型自动学习将相应的音频和视觉标记映射到其内部表示空间的相近位置。他们发现使用两种学习目标可以平衡模型的学习过程,这使CAV-MAE能够理解相应的音频和视觉数据,同时提高其恢复符合用户查询的视频片段的能力。
然而,CAV-MAE将音频和视觉样本视为一个整体,因此一段10秒的视频片段和关门的声音被映射在一起,即使这个音频事件仅发生在视频的一秒钟内。在改进后的模型CAV-MAE Sync中,研究人员在模型计算数据表示之前将音频分割成较小的窗口,以便生成与每个小音频窗口相对应的独立表示。在训练过程中,模型学会将一个视频帧与仅在此帧期间发生的音频关联起来。
“通过这样做,模型学会了更细粒度的对应关系,这在我们整合这些信息时有助于提升性能,”阿劳霍说。他们还引入了架构上的改进,帮助模型平衡其两个学习目标。
增加“灵活性”
该模型包含对比学习目标,即学习将相似的音频和视觉数据关联起来,以及重建目标,旨在根据用户查询恢复特定的音频和视觉数据。在CAV-MAE Sync中,研究人员引入了两种新的数据表示形式或标记,以改善模型的学习能力。它们包括有助于对比学习目标的专用“全局标记”,以及帮助模型聚焦于重建目标的关键细节的专用“注册标记”。
“本质上,我们为模型增加了些许灵活性,让它能够更独立地执行这两种任务,对比和重建。这对整体性能有益,”阿劳霍补充道。
虽然研究人员对这些增强功能会提高CAV-MAE Sync的性能有一定的直觉,但需要精心组合策略才能让模型朝他们期望的方向发展。“因为我们有多种模态,所以我们需要针对每种模态都有良好的模型,但我们还需要让它们融合并协同工作,”鲁迪钦科说。
最终,他们的改进提高了模型根据音频查询检索视频和预测视听场景类别的能力,如狗吠声或乐器演奏。其结果比他们之前的工作更准确,也比需要更多训练数据的更复杂、先进的方法表现更好。
“有时,非常简单的想法或你在数据中看到的小模式,在应用于你正在研究的模型时会有很大价值,”阿劳霍说。
在未来,研究人员希望将新的生成更好数据表示的模型融入CAV-MAE Sync中,这可能会提升性能。他们还想让他们的系统处理文本数据,这是迈向生成视听大语言模型的重要一步。
这项工作部分由德国联邦教育与研究部和麻省理工学院-IBM沃森人工智能实验室资助。
(以上内容均由Ai生成)