AI 先驱荣获 Alan Turing 奖
快速阅读: 《展望印度》消息,特别是,他们借鉴了心理学和神经科学中关于追求愉悦的神经元如何对奖励或惩罚做出反应的研究。1980年代初,巴尔托和萨顿将这一新方法应用于一个具体任务:使杆子在移动的车顶上保持平衡,以防其倾倒。两位计算机科学家后来还合著了一本广为使用的强化学习教材。总结如下:
巴尔托和萨顿将心理学和神经科学中关于神经元对奖励与惩罚反应的研究应用于使杆子在移动车顶上保持平衡的任务中。两人还共同编写了一本广受认可的强化学习教材。
尤其,他们借鉴了心理学和神经科学中关于追求愉悦的神经元如何对奖励或惩罚做出反应的研究。1980年代初发表的一篇标志性论文中,巴尔托和萨顿将这一新方法应用到模拟世界中的一个具体任务上:让杆子在移动的车顶上保持平衡,以免它倒下。两位计算机科学家后来还合作编写了一本广泛使用的强化学习教材。
(以上内容均由Ai生成)