码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习(David Silver)4:免模型控制

时间:2017-08-14 10:06:35      阅读:260      评论:0      收藏:0      [点我收藏+]

标签:没有   函数   world   策略优化   bsp   无限   中间   贪心   更新   

1、一般的策略迭代优化的方法

1)策略评估

2)策略改善

2、model free的策略迭代优化的方法

基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是

1)使用Q函数策略评估

2)使用厄普西隆贪心策略优化

缺点:非常慢

修正方案:不用积累一批episode再优化;每个episode都优化一次;提升更新频率

3、如何保证找到了最优策略

GLIE策略保证收敛:

1)每个(s,a)都探索无限次

2)最终策略是收敛的

厄普西隆贪心是GLIE(当厄普西隆收敛时)

4、TD学习:SARSA

SARSA收敛性依赖于:sum(a)->无穷;sum(a^2)->有限值;实践中不要这么设置也可以用

5、SARSA和GridWorldSample

6、未知策略学习

1)MC重要性抽样:为什么u/v的重要性采样公式是这样?移项可以发现两边相等;Silver不建议这样做,这样效果很差,因为中间乘积太多,变化太大了

2)直接使用Q函数,不需要重要性采样,就是Q-Learning;是对a做修正,不是对v做修正

7、DP和TD的对比关系:没有看懂

策略迭代为什么对应sarsa?value迭代为什么对应Q-learing?

 

强化学习(David Silver)4:免模型控制

标签:没有   函数   world   策略优化   bsp   无限   中间   贪心   更新   

原文地址:http://www.cnblogs.com/ai1024/p/7355779.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!