码迷,mamicode.com
首页 > 其他好文 > 详细

增强学习笔记 第七章 多步Bootstrap

时间:2017-10-05 12:18:21      阅读:128      评论:0      收藏:0      [点我收藏+]

标签:img   学习   image   logs   定义   分享   bsp   width   误差   

多步TD是介于单步TD和MC之间的一种方法

 

7.1 多步TD预测

首先,定义n-step return:

技术分享

技术分享

技术分享

得出n步迭代更新:

技术分享

 其中$G_t^{(n)}$满足下列误差递减性质:

技术分享

技术分享

当n取一个折衷值的时候,平方误差最小

技术分享

 

 

7.2 n步Sarsa

将状态价值换为动作价值,重新描述$G_t^{(n)}$:

技术分享

以及迭代更新式:

技术分享

对应的,Expected Sarsa的G值:

技术分享

 

 技术分享

 

增强学习笔记 第七章 多步Bootstrap

标签:img   学习   image   logs   定义   分享   bsp   width   误差   

原文地址:http://www.cnblogs.com/milaohu/p/7628758.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!