码迷,mamicode.com
首页 > 其他好文 > 详细

论文笔记之:Continuous Deep Q-Learning with Model-based Acceleration

时间:2016-07-12 21:16:09      阅读:1954      评论:0      收藏:0      [点我收藏+]

标签:

 

Continuous Deep Q-Learning with Model-based Acceleration

 

  本文提出了连续动作空间的深度强化学习算法。

  开始正文之前,首先要弄清楚两个概念:Model-free 和 Model-based。引用 周志华老师的《机器学习》中的一段话来解释这个概念,即:

  Model-based learning:机器已对环境进行了建模,能够在机器内部模拟出与环境相同或者近似的状况。在已知模型的环境中学习称为“有模型学习”,也就是这里讲的 model-based learning。此时,对于任意状态 x,x‘ 和 动作 a,在状态 x 下执行 动作 a 转移到 状态 x‘ 的概率p 是已知的,该转移所带来的奖赏 R 也是已知的。

  那么,于此相对应,就是 Model-free learning。

  

  Model-free RL 已经成功的应用于许多具有挑战性的问题,最近也被拓展去处理大型神经网络策略和值函数。但是,model-free 算法的样本复杂性,特别是当使用高维的函数估计时,使其应用范围局限在物理系统中。本文,探索了一种新的在连续控制任务上降低样本复杂性的探索算法 和 表示。提出了两种互补性的技术来改善该算法的效率。首先,我们提出一个连续的Q-learning algorithm 的变种,并且命名为:Normalized adantage function (NAF),来替换经常使用的 策略梯度 和 actor-critic methods。NAF  允许我们利用 Q-learning 和 经验回放来处理连续的任务,并且在模拟的机器人控制任务上提升了性能。为了进一步的提升我们算法的效率,本文探索了利用学习到的模型来加速 model-free RL 的过程。

 

  

  

  

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

论文笔记之:Continuous Deep Q-Learning with Model-based Acceleration

标签:

原文地址:http://www.cnblogs.com/wangxiaocvpr/p/5664795.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!