码迷,mamicode.com
首页 > 其他好文 > 详细

李宏毅的强化学习视频用于梳理翻阅(2)

时间:2020-05-15 13:46:43      阅读:49      评论:0      收藏:0      [点我收藏+]

标签:不同   技巧   评价   标记   目标   col   算法   方式   nbsp   

 

Actor-Critic算法

在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。

下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判??生成的轨迹的好坏度量,即通过累积和修正????????_??。

但是,该累积和受到了策略网络??的影响很大。在相同的行为下,因为概率问题,使得最终的路径大不相同,从而导致了不同的累积和。因此,该累积和无法稳定的度量,策略网络??生成的轨迹。

技术图片

 

 

 在Q-learning之类的算法中,使用状态值函数V(s),选择最大的状态价值对应的行为a,或使用状态行为对Q(s,a),输出对应最大奖励r的行为a。

在该链接中有一张图如下作为参考,不知道对不对:https://zhuanlan.zhihu.com/p/26308073

技术图片

 

 

 在Actor-Critic算法下,对Policy Gradient做了一些修正如下:共有两处,一处Q的期望,一处V的价值。

技术图片

 

 

 为了计算方便和一些经验判断思考,做了两处替换:

Q网络和V网络的问题是,因为Q和V在实际操作过程中,没有足够和有效的的采样,是有偏差的估计值。使用Q-V来计算,则使得两个模型的偏差值更大。因此,将Q使用V来表示。这样的表示是严谨的吗,

 

技术图片

 

 

 其中在之前使用的是Q的期望,但是实际操作中,实现条件和表达问题,去掉了期望部分。

 

技术图片

 最终的更新公式如下:其中V表示一个网络,Critic网络。另外的策略网络??,输出行为,对应的????????_??部分。

Critic网络,梯度下降,最小化目标为Q-V的部分,Actor网络,梯度上升,最大化目标函数,从而增强评价中,策略输出行为更优方向,的概率。

技术图片

 

 另外,有一些技巧是,如果是像素输入,则可共用卷积神经网络。另外,使用熵对??做正则化,使得动作输出的信息量更大,更有利于探索。

技术图片

 

A3C算法,使用了异步方式。

 

李宏毅的强化学习视频用于梳理翻阅(2)

标签:不同   技巧   评价   标记   目标   col   算法   方式   nbsp   

原文地址:https://www.cnblogs.com/bai2018/p/12894187.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!