MIT-IBM实验室推进AI可靠性与效率,探索多模态推理新方法
快速阅读: 麻省理工学院-IBM沃森AI实验室的博士生们正利用前沿技术解决AI痛点,包括提高模型可信度、优化知识库推理、设计新型语言模型架构及视觉-语言模型的应用,推动AI实用性和部署。
当用户普遍认为新工具和技术可靠、易获取,并且在成本上优于现有方法和工作流程时,这些工具和技术就会被采纳。来自麻省理工学院-IBM沃森AI实验室暑期项目的首届五位博士生正在利用最前沿的资源,解决AI痛点,创造新的功能,以促进AI的实用性和部署——从学习何时信任预测其他模型准确性的模型,到更有效地对知识库进行推理。学生及其导师的努力形成了一条贯穿线,其中实际且技术严谨的研究导致了跨领域的更可靠、更有价值的模型。
构建探测器、路由器、新的注意力机制、合成数据集和程序合成管道,学生的工作涵盖了安全性、推理效率、多模态数据和基于知识的推理。他们的技术强调扩展性和集成性,始终着眼于影响。
学习信任,以及何时信任
麻省理工学院数学研究生安德烈·布里特金的研究重点是模型的可信度。他寻找问题内部的结构,例如系统方程和守恒定律,以了解如何利用这些结构来产生更可靠和稳健的解决方案。在与实验室的合作下,布里特金开发了一种方法来探究大型学习模型(LLM)的行为本质。与IBM研究部的维罗尼卡·托斯特和麻省理工学院电气工程与计算机科学系副教授马尔齐耶·加斯米合作,布里特金探讨了LLM的“不确定性中的不确定性”。
传统上,小型前馈神经网络,通常只有两到三层,被称为探测器,与LLM一起训练,用于标记较大模型给开发者的不可信答案;然而,这些分类器也可能产生假阴性,只能提供点估计值,无法提供关于LLM何时失败的大量信息。通过调查安全/不安全的提示和问答任务,麻省理工学院-IBM团队使用提示标签对、激活向量和LLM的最后一词等隐藏状态来测量梯度分数、对提示的敏感性和分布外数据,以确定探测器的可靠性并学习难以预测的数据区域。这种方法还有助于识别潜在的标签噪声。这是一个关键功能,因为AI系统的可信度完全依赖于它们所基于的标签数据的质量和准确性。对于像IBM的Granite Guardian系列模型这样的应用领域,更准确、更一致的探测器尤为重要。
确保大型语言模型查询的可信回应的另一种方法是通过外部、可信的知识库进行增强,以消除幻觉。对于结构化数据,如社交媒体联系、金融交易或公司数据库,知识图谱(KG)是自然的选择;然而,LLM与KG之间的通信通常使用固定、多代理的管道,计算效率低下且成本高昂。为了解决这一问题,物理研究生宋锦跃与IBM研究部的朱亚达和麻省理工学院电气工程与计算机科学系副教授朱利安·顺共同创建了一个单代理、多轮次、强化学习框架,简化了这一过程。该团队设计了一个托管Freebase和Wikidata知识图谱的API服务器,这些知识图谱包含了通用的网络知识数据,以及一个发出定向检索动作以从服务器获取相关信息的LLM代理。通过不断的互动,代理将从知识图谱收集的数据附加到上下文中,并回应查询。至关重要的是,该系统使用强化学习自我训练,以提供平衡准确性和完整性的答案。该框架将API服务器与单个强化学习代理配对,以提高基于数据的推理的准确性、透明度、效率和可移植性。
明智地使用计算资源
模型响应的及时性和完整性与其准确性同等重要。这一点尤其适用于处理长输入文本和那些随时间演变的元素,如故事的主题。因此,麻省理工学院电气工程与计算机科学系研究生杨松林正在重新设计模型在推理每个步骤中能处理的内容。专注于变压器的局限性,如LLM中存在的问题,实验室的潘美斯瓦尔·潘达和麻省理工学院电气工程与计算机科学系副教授金允正与杨松林合作,开发了超越变压器的新一代语言模型架构。
面对两个关键限制:由于softmax注意力机制导致长序列建模时计算复杂度高,以及RoPE(旋转位置编码)弱归纳偏差导致的表达能力有限。这意味着当输入长度翻倍时,计算成本会增加四倍。RoPE允许变压器理解令牌(即单词)的序列顺序,但它在捕捉内部状态变化(如变量值)方面表现不佳,且限于训练期间看到的序列长度。
为了解决这些问题,MIT-IBM团队探索了理论上坚实且硬件高效的算法。作为softmax注意力机制的替代方案,他们采用了线性注意力机制,减少了限制可行序列长度的二次复杂度。他们还研究了结合softmax和线性注意力的混合架构,以在计算效率和性能之间找到更好的平衡。
为了提高表达能力,他们用基于豪斯霍尔德变换的动态反射位置编码替换了RoPE。这种方法能够实现更丰富的位置交互,加深对序列信息的理解,同时保持快速高效的计算。MIT-IBM团队的这一进展减少了变压器将问题分解成多个步骤的需要,而是使它们能够以较少的推理令牌处理更复杂的子问题。
新的视野
视觉数据包含了人类大脑可以迅速解析、内化并模仿的多种信息。通过视觉-语言模型(VLMs),两位研究生正在探索通过代码实现这一目标的方法。
过去两个夏天,在MIT-IBM沃森AI实验室主任、计算机科学与人工智能实验室高级研究员Aude Oliva,以及IBM研究部的Rogerio Feris、Dan Gutfreund和Leonid Karlinsky(现就职于Xero)的指导下,EECS的Jovana Kondic专注于视觉文档理解,特别是图表。这些图表包含数据点、图例和轴标签等元素,需要光学字符识别和数值推理,而模型在这方面仍存在困难。为了促进这些任务的表现,Kondic的团队着手创建了一个大型开源合成图表数据集,用于训练和基准测试。
利用他们的原型ChartGen,研究人员开发了一条管道,该管道将种子图表图像通过VLM,后者被提示读取图表并生成可能用于创建图表的Python脚本。框架的LLM组件随后迭代地从许多图表中增强代码,最终产生了超过20万对独特的图表及其代码,涵盖了近30种图表类型,以及支持数据和注释,如描述和关于图表的问题-答案对。团队正在进一步扩展其数据集,帮助实现对企业应用(如财务和科学报告、博客等)中数据可视化的关键多模态理解。
EECS研究生Leonardo Hernandez Cano则关注数字设计,特别是CAD应用中的视觉纹理生成,目标是发现使VLM具备这种能力的有效方法。与由Armando Solar-Lezama(EECS教授及MIT Schwarzman计算机学院杰出教授)和IBM研究部的Nathan Fulton领导的实验室团队合作,Hernandez Cano创建了一个程序合成系统,该系统学会自主精炼代码。该系统从用户提供的图像形式的纹理描述开始,生成一个初始的Python程序,该程序产生视觉纹理,并迭代地精炼代码,以寻找能够生成与目标描述匹配的纹理的程序,从系统自身产生的数据中学习搜索新程序。通过这些精炼,该新颖的程序可以创建具有所需亮度、颜色、虹彩等特性的可视化,模仿真实材料。
综上所述,这些项目及其背后的人员正朝着更加稳健和实用的人工智能方向共同努力。通过解决可靠性、效率和多模态推理的核心挑战,这项工作为不仅更强大而且更可靠和经济实惠的AI系统铺平了道路,适用于现实世界的企业和科学应用。
(以上内容均由Ai生成)