码迷,mamicode.com
首页 > 其他好文 > 详细

增强学习笔记 第八章 表格类方法的规划与学习

时间:2017-10-05 22:40:39      阅读:251      评论:0      收藏:0      [点我收藏+]

标签:改进   时间   规划   象棋   http   ping   增强   ges   更新   

8.1 模型与规划

规划,指利用已有经历对环境提炼模型,减少对环境交互的依赖。

技术分享

 

技术分享

 

8.2 Dyna框架

技术分享

技术分享

8.3 当模型不对时

第一种情况,原路已经行不通,在堵塞处往返多次后,value会被慢慢修正,并找到正确的路

技术分享

第二种情况,发现新的短路,这种情况吧Dyna-Q几乎找不到这条路,但是Dyna-Q+作了改进,对很久没更新的(s,a),reward会附加上$k\sqrt t$。

技术分享

8.4 Prioritized Sweeping

通过价值发生变化的程度来进行规划,变化大的优先规划,变化过小的略过规划

技术分享

 

8.5 规划的另一种理解

对规划通常的理解是改善策略,也可以理解为为决定下一个action作准备。

对于象棋这种不需要太快响应的应用来说,花更多时间在规划上可以使下一步下的更好。

 

8.6 启发式搜索

传统的启发式搜索并不保存action value,但实际上可以和backup结合,用来高效地改进action value。

如果我们有一个完美的模型(例如棋类游戏),但是价值函数不完美,那么我们用较深的启发式搜索可以获得更好的策略。

 

8.7 蒙特卡洛树搜索

首先,并发出一大堆等概率随机的trajactories,然后,根据每个路径上的赢率,选择赢率最大的。

(略)

增强学习笔记 第八章 表格类方法的规划与学习

标签:改进   时间   规划   象棋   http   ping   增强   ges   更新   

原文地址:http://www.cnblogs.com/milaohu/p/7630099.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!