标签:vat linear framework 支持 标准 这一 重要 复杂 学习
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Abstract
动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明。一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息并影响突触可塑性。另一方面,RL理论为基于奖励的学习提供了框架。奖励调节的脉冲时序依赖可塑性(R-STDP)的最新模型已迈出了弥合两种方法之间差距的第一步,但仍面临两个问题。首先,RL通常是在不适合自然情况描述的离散框架中制定的。其次,生物学合理的R-STDP模型需要精确计算奖励预测误差,但神经元如何计算该价值仍有待证明。在这里,我们通过将Doya (2000)的连续时序差分(TD)学习扩展到以连续时间操作的具有连续状态和动作表示的actor-critic网络中脉冲神经元的情况,以提出这些问题的解决方案。在我们的模型中,critic学会了实时预测期望未来奖励。它的活动以及实际奖励,决定了向其自身和actor传递神经调节性TD信号的能力,而后者负责选择动作。在仿真中,我们通过许多与报道的动物表现相符的试验,证明了这种架构可以解决类似Morris水迷宫般的导航任务。我们还使用我们的模型来解决acrobot和cartpole问题这两个复杂的运动控制任务。我们的模型提供了一种计算大脑奖励预测误差的合理方法。此外,从分析得出的学习规则与多巴胺调节的STDP的实验证据是一致的。
Author Summary
每只狗的主人都知道,动物会重复能够获得奖励的行为。但是,基于奖励的学习所基于的大脑机制是什么?实验研究指出,神经元之间的突触连接具有可塑性,神经调节剂多巴胺起着重要作用,但是在学习过程中突触活动和神经调节之间相互作用的确切方式尚不清楚。在这里,我们提出一个模型,解释奖励信号如何与突触可塑性相互作用,并使用该模型解决模拟的迷宫导航任务。我们的模型从RL理论中扩展了一个概念:一组神经元形成一个"actor",负责选择动物的运动方向。另一组神经元,即"critic",其作用是预测智能体将获得的奖励,它利用实际奖励与期望奖励之间的不匹配来指导两组输入的突触。我们的学习智能体学会可靠地走迷宫,以找到奖励。值得注意的是,我们从理论考虑中得出的突触学习规则与基于实验证据的先前规则相似。
Introduction
动物行为学习的许多实例,例如觅食中的寻路,或者Morris水迷宫导航(一个更加人工的例子),可以解释为探索和试错学习。在两个例子中,动物最终学会的行为都是导致高奖励的行为。这些可以是食欲奖励(即食物)或更间接的奖励,例如在水迷宫中寻找平台的解救。
在了解如何在哺乳动物的大脑中学习这种行为方面已取得重要进展。一方面,RL框架[1]为稀疏奖励事件的学习提供了一种理论和算法。RL的一种特别吸引人的形式是TD学习[2]。在标准设置中,该理论假设智能体通过在离散时间步骤中选择适当的动作来在其环境中的状态之间移动。奖励是在状态和动作的某些结合中给出的,智能体的目的是选择其动作,以最大化其所获得的奖励。已经开发了几种算法来解决该问题的标准格式,其中一些算法已与SNN一起使用。这些包括REINFORCE [3,4]和部分可观察的Markov决策过程[5,6],以防智能体对自己的状态不完全了解。
另一方面,实验表明,当发生奖励或奖励预测事件时,与愉悦相关的神经递质多巴胺会释放到大脑中[7]。多巴胺已被证明可以在定时非特定方案中调节可塑性的诱导[8-11]。多巴胺最近还显示出可调节STDP,尽管尚不清楚诱导长期增强(LTP)和长期抑制(LTD)的确切时机和多巴胺的要求[12–14]。
将生物神经网络与RL联系起来的一个关键问题是RL的典型表述依赖于状态,动作和时间的离散描述,而脉冲神经元会在连续时间内自然进化,并且生物学合理的"时间步骤"很难预见。较早的研究表明,可能涉及外部复位[15]或theta振荡[16],但尚无证据支持这一点,并且尚不清楚为什么进化会在连续决策机制中更倾向于较慢的决策步骤。实际上,生物学决策通常是通过连续时间中的整合过程来建模的[17],其中当整合值达到阈值时触发实际决策。
在这项研究中,我们提出了一种方法,可以通过使用状态,动作和时间的连续表示,以及通过得出生物学合理的突触学习规则,来缩小RL模型与脉冲时序依赖的突触学习规则族之间的概念差距。更准确地说,我们使用Actor-Critic结构的一种变体[1,18]进行TD学习。从Doya [19]的连续TD公式开始,我们得出了奖励调节的STDP学习规则,该规则使脉冲神经元模型的网络可以有效地解决导航和运动控制任务,并具有连续状态,动作和时间表征。这可以看作是早期工作的扩展[20,21]到连续动作,连续时间和脉冲神经元。我们证明了这种系统的性能与真实动物相当,并且它为神经调节剂(如多巴胺)的影响提供突触可塑性的新见解。
Results
动物如何学会通过迷宫找到自己的路?这种学习和计算基础是什么样的神经回路?它们所依赖的突触可塑性规则是什么?我们通过研究仿真动物(或智能体)如何解决类似于Morris水迷宫的导航任务来解决这些问题。我们的智能体必须在迷宫中导航,寻找一个(隐藏的)平台来触发奖励交付并结束试验。我们假设我们的智能体可以依靠位置单元[22]来表示其在迷宫中的当前位置(图1)。
TD学习方法提供了一种理论,解释了智能体如何与环境互动以最大化其所获得的奖励。TD学习建立在马尔可夫决策过程的形式基础上。接下来,我们将在连续时间,状态和动作下重新构造马尔可夫决策过程的框架,然后转向actor-critic神经网络和用于解决迷宫任务的学习规则。
让我们考虑一个穿越迷宫的学习智能体。我们可以将其在时间 t 的位置描述为,对应于标准RL框架中状态的连续版本。状态的时间演变由智能体的动作决定,如下所示:
其中 f 描述了环境的动态。在整个本文中,我们使用点符号来表示项相对于时间的导数。
我们将放置单元建模为简单的加标过程(非均匀泊松,请参见模型),仅当代理接近其各自的中心时才会触发。 中心排列在网格上,均匀覆盖迷宫的表面。
奖励以奖励率r(x(t),a(t))的形式分配给代理。 在单个位置x0处的局部奖励R0将对应于极限r(x(t),a(t))?R0:dD(Ex(t){x0E),其中dD表示狄拉克d函数。 但是,由于任何现实的奖励(例如一块巧克力或在水迷宫中的隐藏平台)都具有有限的范围,因此我们更倾向于使用时间上的奖励。 在我们的模型中,奖励是基于空间精确的事件来分配的,但奖励的交付是暂时扩展的(请参见模型)。 特工到达目标平台会受到奖励,而撞到墙壁会受到惩罚(负奖励)。
代理遵循策略p,该策略确定在状态x下采取动作a的概率
代理商的总体目标是找到可以确保长期获得最高回报的政策p。
已经提出了几种算法来解决上述加固问题的离散版本,例如Q-Learning [23]或Sarsa [24]。 这两个都使用每个状态动作对的Q值形式的未来奖励表示。 然后,将Q值用于评估当前策略(评估问题)和选择下一个操作(控制问题)。 正如我们在模型中所显示的,当人们希望在保持生物学真实性的同时转向连续表示时,Q值会带来困难。 相反,这里我们使用一种称为“ Actor-Critic” [1,8,21]的方法,其中将主体分为两部分:控制问题由参与者解决,评估问题由评论家解决( 图1)。
结果部分的其余部分结构如下。 首先,我们来看看连续时间中的TD形式主义。 接下来,我们展示尖峰神经元如何实现批评者,以表示和学习预期的未来奖励。 第三,我们讨论了尖峰的神经元参与者,以及它如何代表和学习策略。 最后,仿真结果表明我们的网络成功学习了仿真任务。
Spiking Neuron Critic
Linear Track Simulation
Spiking Neuron Actor
Water-Maze Simulation
Acrobot Task
Cartpole Task
Discussion
Biological Plausibility
Limitations
Synaptic Plasticity and Biological Relevance of the Learning Rule
Insights for Reward-Modulated Learning in the Brain
Models
Neuron Model
Acrobot Task
Cartpole Task
Actor Dynamics
Other Reward-Modulated Synaptic Learning Rules
Simulation Details
Derivation of δV/δwij
Derivation of the Squared TD Gradient Learning Rule
Noise Correlation Problem
Noise Correlation in the TD-LTP Rule
The Trouble with Continuous Q-Learning
Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons
标签:vat linear framework 支持 标准 这一 重要 复杂 学习
原文地址:https://www.cnblogs.com/lucifer1997/p/13427625.html