什么是强化学习？AI 研究人员解释了教机器的一种关键方法——以及它与训练你的狗有什么关系

快速阅读: 《The Conversation （英文）》消息，图灵提出机器智能概念，催生强化学习。巴托和萨顿的工作奠定基础，推动其发展与应用，包括围棋AI AlphaGo及聊天机器人优化。其开创性贡献获2024年ACM图灵奖，影响人工智能及其他领域。

理解智能并创造智能机器是这个时代重大的科学挑战。从经验中学习的能力是机器与生物共有的智能基石。1948年，现代计算机科学之父艾伦·图灵提出制造表现出智能行为的机器的概念，他讨论了用奖励和惩罚“教导”这些机器的方式。图灵的思想最终催生了强化学习的发展，这是人工智能的一个重要分支。强化学习通过训练智能代理在与环境交互过程中最大化奖励来设计它们。

作为一名机器学习研究人员，我认为强化学习的先驱安德鲁·巴托和理查德·萨顿获得2024年ACM图灵奖实至名归。

**什么是强化学习？**

动物训练师知道动物的行为可以通过奖励期望行为来影响。例如，一位狗训练师会在狗正确完成技巧时给它一块饼干，从而强化这一行为，使狗下次更有可能正确地完成技巧。强化学习借鉴了这一见解，源自动物心理学的洞见，但它的目标是训练计算代理，而非动物。

代理可以是一些下棋程序的软件代理，也可以是学习做家务的机器人实体。同样，代理的环境既可以是虚拟的，比如棋盘或视频游戏中设计的世界，也可以是机器人工作的现实家庭。就像动物一样，代理可以感知环境的部分特征并作出反应。例如，一个下棋代理可以查看棋盘布局并走棋；机器人可以通过摄像头和麦克风感知周围环境，并利用电机在物理世界中移动。

但强化学习的核心是通过感知环境并采取行动来设计能够达成目标的代理。强化学习做出了大胆的声明：所有目标都可以通过设计一种名为奖励的数值信号，并让代理最大化它接收到的总奖励来实现。从人类反馈中进行强化学习，对于确保AI与人类目标和价值观保持一致至关重要。

**强化学习的问题与假设**

人工智能中的强化学习问题在于，如何通过感知环境和采取行动来设计能够达成目标的代理。强化学习声称，所有目标都可以通过设计一种名为奖励的数值信号，并让代理最大化它接收到的总奖励来实现。鉴于可能的目标多种多样，研究人员尚不清楚这个声明是否真的成立。因此，这一主张通常被称为奖励假说。

对于一个下棋代理而言，选择与目标相对应的奖励信号并不复杂。例如，一个下棋代理的奖励可以是+1表示胜利，0表示平局，-1表示失败。然而，为一个有用的家用机器人助手设计奖励信号却并非易事。尽管如此，强化学习研究者已经能够设计出有效奖励信号的应用范围正在不断扩大。

**强化学习的成功案例**

强化学习的一个重大成功是在围棋比赛中。研究人员普遍认为，围棋比国际象棋对机器来说更难应对。谷歌旗下的DeepMind运用强化学习创造了AlphaGo。AlphaGo在2016年的五番棋对决中击败了顶级围棋选手李世石，这一成就震惊了整个科技界。

一个更近期的例子是使用强化学习来提升聊天机器人（如ChatGPT）的实用性。强化学习也被用来增强聊天机器人推理的能力。

**强化学习的起源**

然而，在1980年代，这些成功都无法预见。正是在这个时候，巴托和他的博士生萨顿提出了强化学习作为一种通用问题求解框架。他们不仅从动物心理学中汲取灵感，还从反馈影响系统行为的学科以及数学的一个分支领域中获取启发，该分支研究如何在一系列可用选项中选择最佳选择。

他们为研究社区提供了经得起时间考验的数学基础，并创建了如今已成为该领域标准工具的算法。当先驱们投入时间编写教材时，这对一个领域来说是一种罕见的优势。正如林纳斯·鲍林的《化学键的本质》和唐纳德·E·克努特的《计算机程序设计艺术》一样，这类著作因其稀有性而令人印象深刻。萨顿和巴托的《强化学习：简介》于1998年初版，第二版于2018年再版。他们的书影响了一代研究者，并被引用次数超过75,000次。

**强化学习对其他领域的深远影响**

强化学习不仅在人工智能领域取得了突破，还意外地对神经科学产生了影响。多巴胺这种神经递质在人类和动物的奖励驱动行为中起着关键作用。研究人员应用强化学习中开发的具体算法来解释人和动物多巴胺系统的实验结果。

巴托和萨顿的奠基性工作、远见卓识及倡导努力极大地推动了强化学习的发展。他们的工作激发了大量研究，对现实世界的应用产生了影响，并吸引了科技公司的大量投资。我相信，站在他们肩膀上的强化学习研究者将继续展望远方，开辟新的可能性。

(以上内容均由Ai生成)