Meta研发新技术,揭示并修复大语言模型推理错误

发布时间:2025年10月31日    来源:szf
Meta研发新技术,揭示并修复大语言模型推理错误

快速阅读: Meta与爱丁堡大学合作开发CRV技术,能预测并修复LLM推理错误,通过观察模型内部“推理电路”,提高AI可靠性,为未来模型调试奠定基础。

近日,Meta 的人工智能研究团队与爱丁堡大学合作,开发了一种新技术,能够预测大型语言模型(LLM)推理的正确性,并在发现错误时进行修复。这种名为电路基础推理验证(CRV)的方法,旨在深入观察 LLM 的内部 “推理电路”,以便在模型解决问题时检测出计算错误的迹象。

研究表明,CRV 可以通过构建并观察模型内部激活的计算图,以高准确率检测到 LLM 的推理错误。这一突破性的发现意味着研究人员可以利用深层次的内部信息,对模型的错误推理进行针对性的干预。

链式思维推理(CoT)作为一种提升 LLM 在复杂任务上表现的方法,已经被广泛应用,但它的可靠性依然存在问题。现有的验证方法主要分为两类:“黑箱” 方法通过分析最终生成的 token 或置信度分数来验证;“灰箱” 方法则试图观察模型的内部状态,然而这些方法并不能解释计算失败的根本原因。

CRV 采用了一种 “白箱” 验证方法,认为模型在执行任务时会使用专门的神经元子图。通过替换标准的稠密层为训练过的 “转码器”,研究人员使目标 LLM 变得可解释,从而可以观察到其内部工作原理。接着,CRV 会构建一个 “归因图”,映射信息在模型各个部分之间的因果流动,并提取出描述图特性的 “结构指纹”。最终,训练一个 “诊断分类器” 来预测推理步骤是否正确。

研究团队在 Llama3.1模型上进行了实验,结果表明,CRV 在各种数据集和指标上均优于其他验证方法,展现了其强大的有效性。同时,研究发现,不同推理任务中的错误签名具有领域特异性,这意味着不同类型的推理依赖于不同的内部电路。

最重要的是,CRV 不仅仅是相关性分析,它提供了一种透明的计算视图,使得预测的失败可以追溯到特定组件,研究人员因此可以通过抑制错误特征,实时修正模型的推理路径。

划重点: 🌟 CRV 技术能有效预测并修复 LLM 的推理错误,提高 AI 的可靠性。

🧠 研究采用了 “白箱” 验证方法,揭示了 LLM 的内部推理电路。

🔧 CRV 的成功应用为未来 AI 模型调试工具的开发奠定了基础。

(以上内容均由Ai生成)

你可能还想读

企业AI治理聚焦员工实际工作场景

企业AI治理聚焦员工实际工作场景

快速阅读: 最新消息显示,企业加速部署AI协作者引发数据安全风险,敏感信息易在浏览器界面层泄露。专家建议通过角色分级、本地内容识别与合规通道,在提升效率的同时满足GDPR等法规要求。 企业正加速引入人工智能协作者与浏览器助手,但员工在实际使 […]

发布时间:2025年12月17日
科技界将助力缩小视障群体就业差距

科技界将助力缩小视障群体就业差距

快速阅读: 有消息指出,技术开发者正推动包容性设计,以弥合就业障碍,确保辅助工具与企业系统兼容可用。若忽视这一原则,一次系统更新就可能导致残障求职者或员工被排除在外;而早期纳入包容性考量成本极低,却能有效促进公平就业。 当前,许多人在进入劳 […]

发布时间:2025年12月17日
AI测评师推荐2025年三大免费高效工具

AI测评师推荐2025年三大免费高效工具

快速阅读: 据苹果公司消息,其将系统自带的语音备忘录应用评为2025年“年度iPhone应用”。该工具免费支持录音转文字、关键词搜索及音频回放,适用于iOS 18.0以上系统的iPhone 12及以上机型,为ADHD人群及高频录音用户提供高 […]

发布时间:2025年12月17日
企业将整合AI与地理技术推进气候智能决策

企业将整合AI与地理技术推进气候智能决策

快速阅读: 据了解,企业正加速融合可持续发展数据与运营系统,通过AI、地理空间技术及数字孪生构建“气候智能”能力,以驱动减排行动。但AI自身高能耗引发“可持续悖论”,凸显绿色IT透明度与净环境效益验证的紧迫性。 近年来,企业正加速将可持续发 […]

发布时间:2025年12月17日
亚马逊拟投资100亿美元入股OpenAI并供应Trainium芯片

亚马逊拟投资100亿美元入股OpenAI并供应Trainium芯片

快速阅读: 据金融时报报道,亚马逊计划向OpenAI投资100亿美元,并提供AI芯片及云服务,以推动其电商平台优化;作为回报,OpenAI将扩大使用AWS数据中心,采用亚马逊自研Trainium芯片,并叠加此前380亿美元的租赁承诺。 亚马 […]

发布时间:2025年12月17日
Instagram推电视版Reels应用

Instagram推电视版Reels应用

快速阅读: 据Meta公司消息,该公司近日开始公开测试适用于电视端的Instagram应用,目前仅支持亚马逊Fire TV设备,主推Reels短视频内容并按兴趣划分频道,未来将增加手机遥控、好友动态共享等功能以优化用户体验。 为满足用户在更 […]

发布时间:2025年12月17日
美金融机构以治理先行推进负责任AI

美金融机构以治理先行推进负责任AI

快速阅读: 消息人士透露,一家美国大型金融机构在推进人工智能应用前,优先构建以负责任AI原则为基础的治理框架,聚焦准确性、公平性与安全性等核心要素,在提升效率的同时防控风险。 一家总部位于美国的大型金融机构在看到人工智能提升运营效率的巨大潜 […]

发布时间:2025年12月17日
台电将发布AI数据中心电网安全新规

台电将发布AI数据中心电网安全新规

快速阅读: 据台电公司消息,人工智能数据中心用电需求无法仅靠延伸输电线路满足,须统筹评估当地供电能力,建议运营商优先在中南部布局,待北部电网扩容后再行建设,以优化电力资源配置并保障稳定运行。 台电公司指出,人工智能数据中心的用电需求无法仅靠 […]

发布时间:2025年12月17日