Playing Atari with Deep Reinforcement Learning:打响DRL的第一枪

时间：2019-12-31 01:22:46 阅读：80 评论：0 收藏：0 [点我收藏+]

这篇文章就是DQN,DRL领域非常重要的一篇文章,也是David Silver大神的工作。文章本身没有什么难度。

文章说了RL和DL 的两个不同之处
-　DL 尤其是supervised learning 需要大量的labelled training data, 强化学习只有一个scalar Reward，并且reward很可能　noisy, sparse, delayed
-　DL 通常假设数据是独立同分布的，但是强化学习的数据前后有高度的相关性，数据分布也会变化

DQN 其实就是Q-learning 的神经网络版本，基础理论是一致的，就是解决几个迁移到神经网络上遇到的问题

Bellman optimal equation: \(Q_*(s,a) =E_{s'\sim \varepsilon}[r+ \gamma \underset{a'}{max}Q(s',a')|s,a]\)

使用的是value iteration 来进行GPI，要优化的目标函数是：
\[L_i(\theta_i) = E_{s,a\sim\rho(\cdot)}[(y_i-Q(s,a;\theta_{i}))^2]\]
\(\rho(s,a)\)是behaviour distribution,\(y_i = E_{s'\sim \varepsilon }[r+ \gamma \underset{a'}{max}Q(s',a';\theta_{i-1})|s,a]\)

求导之后的公式为:(semi-gradient)

\[\nabla_{\theta_i}L_i(\theta_i) = E_{s,a \sim\rho(\cdot);s'\sim \varepsilon}[r+\gamma \underset{a'}{max} Q(s',a';\theta_{i-1})-Q(s,a;\theta_i))\nabla_{\theta_i} Q(s,a;\theta_i)]\]

为了解决数据分布问题，使用了experience replay

算法为：

技术图片

算法优势：
１．每一步经验都可以重复使用，提高了data efficiency
２. 从replay buffer中随机sample,一定程度上打破了数据之间的联系，减小了方差
３．off-policy 更加smooth,不容易陷入局部最优

Playing Atari with Deep Reinforcement Learning:打响DRL的第一枪

标签：str 公式工作目标 sample sim 了解 src var

原文地址：https://www.cnblogs.com/Lzqayx/p/12122020.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行