什么是强化学习?AI 研究人员解释了教机器的一种关键方法——以及它与训练你的狗有什么关系

发布时间:2025年4月7日    来源:szf
什么是强化学习?AI 研究人员解释了教机器的一种关键方法——以及它与训练你的狗有什么关系

快速阅读: 《The Conversation (英文)》消息,图灵提出机器智能概念,催生强化学习。巴托和萨顿的工作奠定基础,推动其发展与应用,包括围棋AI AlphaGo及聊天机器人优化。其开创性贡献获2024年ACM图灵奖,影响人工智能及其他领域。

理解智能并创造智能机器是这个时代重大的科学挑战。从经验中学习的能力是机器与生物共有的智能基石。1948年,现代计算机科学之父艾伦·图灵提出制造表现出智能行为的机器的概念,他讨论了用奖励和惩罚“教导”这些机器的方式。图灵的思想最终催生了强化学习的发展,这是人工智能的一个重要分支。强化学习通过训练智能代理在与环境交互过程中最大化奖励来设计它们。

作为一名机器学习研究人员,我认为强化学习的先驱安德鲁·巴托和理查德·萨顿获得2024年ACM图灵奖实至名归。

**什么是强化学习?**

动物训练师知道动物的行为可以通过奖励期望行为来影响。例如,一位狗训练师会在狗正确完成技巧时给它一块饼干,从而强化这一行为,使狗下次更有可能正确地完成技巧。强化学习借鉴了这一见解,源自动物心理学的洞见,但它的目标是训练计算代理,而非动物。

代理可以是一些下棋程序的软件代理,也可以是学习做家务的机器人实体。同样,代理的环境既可以是虚拟的,比如棋盘或视频游戏中设计的世界,也可以是机器人工作的现实家庭。就像动物一样,代理可以感知环境的部分特征并作出反应。例如,一个下棋代理可以查看棋盘布局并走棋;机器人可以通过摄像头和麦克风感知周围环境,并利用电机在物理世界中移动。

但强化学习的核心是通过感知环境并采取行动来设计能够达成目标的代理。强化学习做出了大胆的声明:所有目标都可以通过设计一种名为奖励的数值信号,并让代理最大化它接收到的总奖励来实现。从人类反馈中进行强化学习,对于确保AI与人类目标和价值观保持一致至关重要。

**强化学习的问题与假设**

人工智能中的强化学习问题在于,如何通过感知环境和采取行动来设计能够达成目标的代理。强化学习声称,所有目标都可以通过设计一种名为奖励的数值信号,并让代理最大化它接收到的总奖励来实现。鉴于可能的目标多种多样,研究人员尚不清楚这个声明是否真的成立。因此,这一主张通常被称为奖励假说。

对于一个下棋代理而言,选择与目标相对应的奖励信号并不复杂。例如,一个下棋代理的奖励可以是+1表示胜利,0表示平局,-1表示失败。然而,为一个有用的家用机器人助手设计奖励信号却并非易事。尽管如此,强化学习研究者已经能够设计出有效奖励信号的应用范围正在不断扩大。

**强化学习的成功案例**

强化学习的一个重大成功是在围棋比赛中。研究人员普遍认为,围棋比国际象棋对机器来说更难应对。谷歌旗下的DeepMind运用强化学习创造了AlphaGo。AlphaGo在2016年的五番棋对决中击败了顶级围棋选手李世石,这一成就震惊了整个科技界。

一个更近期的例子是使用强化学习来提升聊天机器人(如ChatGPT)的实用性。强化学习也被用来增强聊天机器人推理的能力。

**强化学习的起源**

然而,在1980年代,这些成功都无法预见。正是在这个时候,巴托和他的博士生萨顿提出了强化学习作为一种通用问题求解框架。他们不仅从动物心理学中汲取灵感,还从反馈影响系统行为的学科以及数学的一个分支领域中获取启发,该分支研究如何在一系列可用选项中选择最佳选择。

他们为研究社区提供了经得起时间考验的数学基础,并创建了如今已成为该领域标准工具的算法。当先驱们投入时间编写教材时,这对一个领域来说是一种罕见的优势。正如林纳斯·鲍林的《化学键的本质》和唐纳德·E·克努特的《计算机程序设计艺术》一样,这类著作因其稀有性而令人印象深刻。萨顿和巴托的《强化学习:简介》于1998年初版,第二版于2018年再版。他们的书影响了一代研究者,并被引用次数超过75,000次。

**强化学习对其他领域的深远影响**

强化学习不仅在人工智能领域取得了突破,还意外地对神经科学产生了影响。多巴胺这种神经递质在人类和动物的奖励驱动行为中起着关键作用。研究人员应用强化学习中开发的具体算法来解释人和动物多巴胺系统的实验结果。

巴托和萨顿的奠基性工作、远见卓识及倡导努力极大地推动了强化学习的发展。他们的工作激发了大量研究,对现实世界的应用产生了影响,并吸引了科技公司的大量投资。我相信,站在他们肩膀上的强化学习研究者将继续展望远方,开辟新的可能性。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日