标签:alien http enc err 表示 系统 得奖 检测 区分
中脑的多巴胺系统(SN、VTA)、纹状体、OFC、杏仁核等部位都会表达诸如奖赏的量、可能性、主观价值、效用、风险等信号。
在SN和VTA里面,大部分的多巴胺神经元都会通过一个短暂的Phasic的反应(一过性的反应)来编码temporal reward prediction error,即表达期待的奖赏与现实可得到的奖赏之间的差值。这一脑细胞的活动信号,刚好跟强化学习里面的prediction error的功效是一致的。
多巴胺细胞按照其反应的速度或模式来分,会有三种亚型:第一种是快速的(Phasic的),在刺激出现之后100、200毫秒即会反应的亚秒级的多巴胺信号;第二种是更慢的,会在刺激出现之后10来分钟左右才会得到最强烈的信号;第三种是Tonic,它是与Phasic的反应相对的,不是突发的一过性信号,而是始终存在的持续性的信号。
这三种信号之中,只有亚秒级的多巴胺信号编码的是prediction error的信息,其余的两种则会表达压力、注意力、运动等信息。
并且,这种亚秒级的多巴胺信号会包含两个成分。下图中0秒的位置代表一个刺激的出现的话,第一个成分是下图中蓝色的部分,是对于突然出现刺激的反应,接下来这个反应会消失,取而代之的是红色部分,表达的是奖赏的价值的信号。
这片Review文章就是来具体考察多巴胺细胞的这种Phasic的反应的,它的初期成分是无差别地检测出潜在的奖赏(包含刺激本身是厌恶的或者中性的情况),后期成分是表达价值的信息的。并且这一表示“奖赏”的PE信号实际上可能是编码“效用”(Utility)的PE的信号。
奖赏首先是通过其物理特性(大小、形状、颜色等Physical Salience)来让人感知到,这就是初期成分的来源,之后进一步与已知的东西进行比较,判断其是否是新奇的(Novelty Salience)或是惊讶的(Surprise Salience),等这一判别过程完成之后,才会进行价值评估(Valuation),价值将奖赏和其他的物体或是刺激区分了开来。价值因其能激发人的动力(Motivational Salience)所以有价值的东西才能吸引人的注意。
然而,这一先检测刺激的有无,然后才对价值进行区分的逐级处理反应模式并非局限于多巴胺细胞,比如在前额叶的Frontal Eye Field(FEF)中也有类似的反应。
这是让猴子来看两种刺激,但只追踪其中某个目标,刚开始的时候不论是要追踪的目标还是错误目标,FEF的神经元都会对他有反应(下图的绿线和紫线的高峰位置),在刺激出现大约150ms之后才会对要追踪的和不要追踪的目标产生差异性的反应。如果是看到了要追踪的目标则神经元会持续活跃(紫色),反之则开始沉默(绿色)。
对于多巴胺细胞而言,如果仅仅是使用简单的、快速呈现的刺激(一个可以获得奖赏、一个不可以),就很难发现它会存在这种层级式的反应,所以要不然用统计的方法(计算偏回归系数),要不然就把刺激的处理时间延长,从而区分出这两个不同的信号。如下图中将多巴胺细胞的反应区分成对于物理性刺激的反应(蓝色)和对于奖赏价值(红色)的反应的两个成分。
有些多巴胺神经元不存在或者只是存在较弱的初期成分,对于存在初期成分的神经元来说,各种感官刺激形式(视觉、听觉、味觉等)以及不论是奖赏还是可预测奖赏的刺激、或是没有奖赏的刺激、厌恶性刺激以及预测奖赏会消失的刺激都会激发它们初期成分的反应。初期成分的反应对于刺激的出现时间是极为敏感的,因此它正是在编码时序预测误差(temporal prediction error)。
初期成分的强弱会受到一些因素的左右。比如,
1 更强的刺激会带来更强的多巴胺发放(下图中90分贝就比72分贝要引发更强的反应)。
标签:alien http enc err 表示 系统 得奖 检测 区分
原文地址:https://www.cnblogs.com/hankoui/p/9311541.html