论文笔记之：Continuous Deep Q-Learning with Model-based Acceleration

时间：2016-07-12 21:16:09 阅读：1954 评论：0 收藏：0 [点我收藏+]

标签：

Continuous Deep Q-Learning with Model-based Acceleration

　　本文提出了连续动作空间的深度强化学习算法。

　　开始正文之前，首先要弄清楚两个概念：Model-free 和 Model-based。引用周志华老师的《机器学习》中的一段话来解释这个概念，即：

　　Model-based learning：机器已对环境进行了建模，能够在机器内部模拟出与环境相同或者近似的状况。在已知模型的环境中学习称为“有模型学习”，也就是这里讲的 model-based learning。此时，对于任意状态 x，x‘ 和动作 a，在状态 x 下执行动作 a 转移到状态 x‘ 的概率p 是已知的，该转移所带来的奖赏 R 也是已知的。

　　那么，于此相对应，就是 Model-free learning。

　　Model-free RL 已经成功的应用于许多具有挑战性的问题，最近也被拓展去处理大型神经网络策略和值函数。但是，model-free 算法的样本复杂性，特别是当使用高维的函数估计时，使其应用范围局限在物理系统中。本文，探索了一种新的在连续控制任务上降低样本复杂性的探索算法和表示。提出了两种互补性的技术来改善该算法的效率。首先，我们提出一个连续的Q-learning algorithm 的变种，并且命名为：Normalized adantage function (NAF)，来替换经常使用的策略梯度和 actor-critic methods。NAF 允许我们利用 Q-learning 和经验回放来处理连续的任务，并且在模拟的机器人控制任务上提升了性能。为了进一步的提升我们算法的效率，本文探索了利用学习到的模型来加速 model-free RL 的过程。

论文笔记之：Continuous Deep Q-Learning with Model-based Acceleration

标签：

原文地址：http://www.cnblogs.com/wangxiaocvpr/p/5664795.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行