码迷,mamicode.com
首页 > 其他好文 > 详细

Deep Reinforcement Learning and Its Neuroscientific Implications

时间:2020-09-04 17:42:31      阅读:81      评论:0      收藏:0      [点我收藏+]

标签:car   更新   family   适应   一起   信息   技术   化学   改善   

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

技术图片

Abstract

  强大的人工智能(AI)的出现为神经科学定义了新的研究方向。 迄今为止,这项研究主要集中于在诸如图像分类等任务中使用监督学习训练的深度神经网络。 但是,到目前为止,人工智能领域还有另一个领域受到了神经科学家的关注,但可能具有深远的神经科学意义:深度强化学习(RL)。  Deep RL为研究学习,表示和决策之间的相互作用提供了一个全面的框架,为脑科学提供了一套新的研究工具和一系列新颖的假设。 在当前的综述中,我们提供了深度RL的高级介绍,讨论了其在神经科学中的一些初步应用,并调查了其对大脑和行为研究的广泛意义,并提供了进行下一步研究的机会。

 

  在过去的几年中,人们对深度学习作为建模脑功能的基础的兴趣激增(Cichy和Kaiser,2019年; G Guclu和van Gerven,2017年; Hasson等人,2020年; Marblestone等人 (2016; Richards等,2019)。 深度学习已被研究用于建模多个系统,包括视觉(Yamins等,2014; Yamins和DiCarlo,2016),试听(Kell等,2018),运动控制(Merel等,2019; Weinstein和Botvinick) (2017年),导航(Banino等人,2018年; Whittington等人,2019年)和认知控制(Mante等人,2013年; Botvinick和Cohen,2014年)。 机器学习和人工智能(AI)的最新发展推动了人们对深度学习兴趣的兴起。 与之特别相关的是在诸如图像分类之类的任务上使用监督学习训练深度学习系统的进展-即在任务训练期间明确提供“正确答案”(Krizhevsky等人,2012; Deng等人,2009) )。
  尽管有其新鲜感,但实际上可以将监督深度学习的最新神经科学应用程序追溯到1980年代,当时,监督深度学习的第一个神经科学应用程序开始出现(Zipser和Andersen,1988; Zipser,1991)。 )。 当然,鉴于功能更强大的计算机的出现带来了新的机遇,这种回报是非常合理的,它可以将受监督的深度学习系统扩展到更有趣的数据集和任务。 但是,与此同时,最近的AI研究还有其他一些发展,这些发展从根本上讲是新颖的,受到神经科学家的关注较少。我们在这篇综述中的目的是要引起人们对神经科学至关重要的领域的关注,即深度强化学习(RL)。

  我们将详细介绍,深度RL将深度学习与已经对神经科学研究产生重大影响的第二个计算框架结合在一起。 尽管将RL与深度学习相集成一直是AI的长期愿望,但直到最近几年这种集成才取得成果。 反过来,这项工程学突破突显了在深度学习或RL中都不会出现的各种计算问题。 其中许多以有趣的方式与大脑功能的关键方面相关,为神经科学研究提供了一系列诱人的机会:迄今为止很少探索的机会。
  接下来,我们从对深度RL的简要概念和历史介绍入手,并讨论为什么它对神经科学具有潜在的重要性。 然后,我们重点介绍一些研究,这些研究已开始探索深层RL与脑功能之间的关系。 最后,我们提出了一系列广泛的主题,深层RL可以为神经科学提供新的杠杆作用,同时提出一系列警告和公开挑战。

 

An Introduction to Deep RL Reinforcement Learning

  RL(Sutton and Barto,2018)考虑了学习者或智能体嵌入环境的问题,在这种环境中,智能体必须根据每个环境状况或状态逐步改善其选择的行动(图1A)。 至关重要的是,与监督学习相反,代理没有收到直接指示正确动作的明确反馈。 取而代之的是,每个动作都会引发相关的奖励或缺乏奖励的信号,而RL问题是逐步更新行为,以使随时间累积的奖励最大化。 因为没有直接告诉代理人该怎么做,所以它必须探索替代行动,积累有关他们产生的结果的信息,从而逐步遵循一种奖励最大化的行为政策。
  注意,RL是根据学习问题而不是通过学习系统的体系结构或学习算法本身来定义的。 实际上,已经开发了各种各样的体系结构和算法,涵盖了关于表示什么数量,如何根据经验更新这些数量以及如何做出决策的一系列假设。

  RL问题的任何解决方案的基础都是应如何表示环境状态的问题。RL的早期工作涉及简单的环境,该环境仅包含少数可能的状态和简单的代理,这些代理独立地了解每个状态,即所谓的表格状态表示。通过设计,这种表示形式无法支持泛化(将一个状态的知识应用到其他相似状态的能力),这种缺点随着环境变得越来越大和越来越复杂而变得越来越无效率,因此个别状态不太可能再次出现 。
  实现状态之间泛化的一种重要方法称为函数逼近(Sutton and Barto,2018),该方法试图将相似的表示分配给需要相似动作的状态。 在这种方法的一个简单实现中,称为线性函数逼近,每个状态或情况都被编码为一组特征,学习者使用这些特征的线性读数作为选择其动作的基础。

 

  尽管RL研究中经常使用线性函数逼近,但人们早已认识到RL产生智能的,类似于人的行为所需的是某种形式的非线性函数逼近。 众所周知,识别视觉类别(例如“猫”)需要对视觉特征(边缘,纹理和更复杂的配置)进行非线性处理,通常需要对感知输入进行非线性处理,以便 决定采取适应性行动。
  考虑到这一点,RL研究长期以来一直在寻求可行的非线性函数逼近方法。尽管多年来探索了多种方法,通常将表示学习问题与潜在的RL问题无关地进行处理(Mahadevan和Maggioni,2007年; Konidaris等人,2011年),但长期以来人们一直渴望进行适应性非学习。 深度神经网络的线性函数逼近。

 

Deep Learning

  深度神经网络是由通过类似突触的接触连接的类似神经元的单元组成的计算系统(图1B)。 每个单元都发送一个类似于尖峰速率的标量值,该标量值是根据其输入之和计算得出的,即``上游‘‘单元的活动乘以传输突触或连接的强度(Goodfellow 等人,2016年)。 至关重要的是,单位活动是这些输入的非线性函数,允许具有插入在系统的“输入”和“输出”侧之间的单位层的网络(即“深度”神经网络)能够 近似将激活输入映射到激活输出的任何函数(Sutskever和Hinton,2008)。 此外,当连接模式包含循环时(例如在“循环”神经网络中),网络的激活可以保留有关过去事件的信息,从而使网络可以根据输入序列来计算函数。
  “深度学习”是指在深度神经网络中调整连接权重以建立所需的输入输出映射的问题。 尽管存在许多解决该问题的算法,但是迄今为止,最有效和广泛使用的算法是反向传播,它使用微积分的链式规则来决定如何调整整个网络的权重。
  尽管反向传播已经发展了30多年(Rumelhart et al。,1985; Werbos,1974),但直到最近,反向传播几乎只用于上述定义的有监督学习或无监督学习(仅提供输入),并且 任务是在一些评估表示结构的函数的基础上学习这些输入的“良好”表示,例如在聚类算法中所做的。 重要的是,这两个学习问题都与RL根本不同。 特别是,与有监督和无监督学习不同,RL需要探索,因为学习者负责发现增加奖励的行为。 此外,探索必须与利用已获得的行动价值信息进行权衡,或者按照惯例,必须权衡“剥削”。与大多数传统的有监督和无监督的学习问题不同,RL中的标准假设是 学习系统的动作会在下一个时间步影响其输入,从而形成感觉运动反馈回路,并由于训练数据的不稳定性而导致潜在的困难。 这会导致目标行为或输出涉及多步决策过程,而不是单个输入-输出映射的情况。 直到最近,将深度学习应用于RL设置一直是一个令人沮丧而难以理解的问题。

 

Deep Reinforcement Learning

 

Deep Reinforcement Learning and Its Neuroscientific Implications

标签:car   更新   family   适应   一起   信息   技术   化学   改善   

原文地址:https://www.cnblogs.com/lucifer1997/p/13571155.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!