标签:
Continuous Deep Q-Learning with Model-based Acceleration
本文提出了连续动作空间的深度强化学习算法。
开始正文之前,首先要弄清楚两个概念:Model-free 和 Model-based。引用 周志华老师的《机器学习》中的一段话来解释这个概念,即:
Model-based learning:机器已对环境进行了建模,能够在机器内部模拟出与环境相同或者近似的状况。在已知模型的环境中学习称为“有模型学习”,也就是这里讲的 model-based learning。此时,对于任意状态 x,x‘ 和 动作 a,在状态 x 下执行 动作 a 转移到 状态 x‘ 的概率p 是已知的,该转移所带来的奖赏 R 也是已知的。
那么,于此相对应,就是 Model-free learning。
Model-free RL 已经成功的应用于许多具有挑战性的问题,最近也被拓展去处理大型神经网络策略和值函数。但是,model-free 算法的样本复杂性,特别是当使用高维的函数估计时,使其应用范围局限在物理系统中。本文,探索了一种新的在连续控制任务上降低样本复杂性的探索算法 和 表示。提出了两种互补性的技术来改善该算法的效率。首先,我们提出一个连续的Q-learning algorithm 的变种,并且命名为:Normalized adantage function (NAF),来替换经常使用的 策略梯度 和 actor-critic methods。NAF 允许我们利用 Q-learning 和 经验回放来处理连续的任务,并且在模拟的机器人控制任务上提升了性能。为了进一步的提升我们算法的效率,本文探索了利用学习到的模型来加速 model-free RL 的过程。
论文笔记之:Continuous Deep Q-Learning with Model-based Acceleration
标签:
原文地址:http://www.cnblogs.com/wangxiaocvpr/p/5664795.html