什么是强化学习?AI 研究人员解释了教机器的一种关键方法——以及它与训练你的狗有什么关系

发布时间:2025年4月7日    来源:szf
什么是强化学习?AI 研究人员解释了教机器的一种关键方法——以及它与训练你的狗有什么关系

快速阅读: 《The Conversation (英文)》消息,图灵提出机器智能概念,催生强化学习。巴托和萨顿的工作奠定基础,推动其发展与应用,包括围棋AI AlphaGo及聊天机器人优化。其开创性贡献获2024年ACM图灵奖,影响人工智能及其他领域。

理解智能并创造智能机器是这个时代重大的科学挑战。从经验中学习的能力是机器与生物共有的智能基石。1948年,现代计算机科学之父艾伦·图灵提出制造表现出智能行为的机器的概念,他讨论了用奖励和惩罚“教导”这些机器的方式。图灵的思想最终催生了强化学习的发展,这是人工智能的一个重要分支。强化学习通过训练智能代理在与环境交互过程中最大化奖励来设计它们。

作为一名机器学习研究人员,我认为强化学习的先驱安德鲁·巴托和理查德·萨顿获得2024年ACM图灵奖实至名归。

**什么是强化学习?**

动物训练师知道动物的行为可以通过奖励期望行为来影响。例如,一位狗训练师会在狗正确完成技巧时给它一块饼干,从而强化这一行为,使狗下次更有可能正确地完成技巧。强化学习借鉴了这一见解,源自动物心理学的洞见,但它的目标是训练计算代理,而非动物。

代理可以是一些下棋程序的软件代理,也可以是学习做家务的机器人实体。同样,代理的环境既可以是虚拟的,比如棋盘或视频游戏中设计的世界,也可以是机器人工作的现实家庭。就像动物一样,代理可以感知环境的部分特征并作出反应。例如,一个下棋代理可以查看棋盘布局并走棋;机器人可以通过摄像头和麦克风感知周围环境,并利用电机在物理世界中移动。

但强化学习的核心是通过感知环境并采取行动来设计能够达成目标的代理。强化学习做出了大胆的声明:所有目标都可以通过设计一种名为奖励的数值信号,并让代理最大化它接收到的总奖励来实现。从人类反馈中进行强化学习,对于确保AI与人类目标和价值观保持一致至关重要。

**强化学习的问题与假设**

人工智能中的强化学习问题在于,如何通过感知环境和采取行动来设计能够达成目标的代理。强化学习声称,所有目标都可以通过设计一种名为奖励的数值信号,并让代理最大化它接收到的总奖励来实现。鉴于可能的目标多种多样,研究人员尚不清楚这个声明是否真的成立。因此,这一主张通常被称为奖励假说。

对于一个下棋代理而言,选择与目标相对应的奖励信号并不复杂。例如,一个下棋代理的奖励可以是+1表示胜利,0表示平局,-1表示失败。然而,为一个有用的家用机器人助手设计奖励信号却并非易事。尽管如此,强化学习研究者已经能够设计出有效奖励信号的应用范围正在不断扩大。

**强化学习的成功案例**

强化学习的一个重大成功是在围棋比赛中。研究人员普遍认为,围棋比国际象棋对机器来说更难应对。谷歌旗下的DeepMind运用强化学习创造了AlphaGo。AlphaGo在2016年的五番棋对决中击败了顶级围棋选手李世石,这一成就震惊了整个科技界。

一个更近期的例子是使用强化学习来提升聊天机器人(如ChatGPT)的实用性。强化学习也被用来增强聊天机器人推理的能力。

**强化学习的起源**

然而,在1980年代,这些成功都无法预见。正是在这个时候,巴托和他的博士生萨顿提出了强化学习作为一种通用问题求解框架。他们不仅从动物心理学中汲取灵感,还从反馈影响系统行为的学科以及数学的一个分支领域中获取启发,该分支研究如何在一系列可用选项中选择最佳选择。

他们为研究社区提供了经得起时间考验的数学基础,并创建了如今已成为该领域标准工具的算法。当先驱们投入时间编写教材时,这对一个领域来说是一种罕见的优势。正如林纳斯·鲍林的《化学键的本质》和唐纳德·E·克努特的《计算机程序设计艺术》一样,这类著作因其稀有性而令人印象深刻。萨顿和巴托的《强化学习:简介》于1998年初版,第二版于2018年再版。他们的书影响了一代研究者,并被引用次数超过75,000次。

**强化学习对其他领域的深远影响**

强化学习不仅在人工智能领域取得了突破,还意外地对神经科学产生了影响。多巴胺这种神经递质在人类和动物的奖励驱动行为中起着关键作用。研究人员应用强化学习中开发的具体算法来解释人和动物多巴胺系统的实验结果。

巴托和萨顿的奠基性工作、远见卓识及倡导努力极大地推动了强化学习的发展。他们的工作激发了大量研究,对现实世界的应用产生了影响,并吸引了科技公司的大量投资。我相信,站在他们肩膀上的强化学习研究者将继续展望远方,开辟新的可能性。

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日