码迷,mamicode.com
首页 > 其他好文 > 详细

增强学习笔记 第四章 动态规划

时间:2017-10-03 18:59:36      阅读:214      评论:0      收藏:0      [点我收藏+]

标签:效率   函数   评估   9.png   val   第四章   多项式   异步   规划   

 最优价值函数满足下列条件:

 技术分享

技术分享

4.1 策略评估

策略评估通过反复迭代的方式来进行:

技术分享

技术分享

4.2 策略改进

技术分享

4.3 策略迭代

综合4.1和4.2,得到策略迭代算法:

技术分享

4.4 价值迭代

对4.3进行简化,两步合为一步:

技术分享

技术分享

4.5 异步动态规划

通过安排迭代顺序,而不是每次都整个扫一遍,来更快地获得我们想要的状态的value

4.6 广义策略迭代

策略迭代分为两步:策略评估使得价值函数和当前策略一致,而策略改进根据当前价值函数来改进策略。

4.7 动态规划的效率

对于n状态k动作的问题,虽然总策略数有$k^n$种,但是算法可以在多项式时间内完成。百万个状态对DP并不是压力。对于更大的状态空间,异步DP或许是更好的方法。

 

增强学习笔记 第四章 动态规划

标签:效率   函数   评估   9.png   val   第四章   多项式   异步   规划   

原文地址:http://www.cnblogs.com/milaohu/p/7624235.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!