码迷,mamicode.com
首页 > 其他好文 > 详细

增强学习笔记 第十章 On-Policy控制的近似

时间:2017-10-07 16:12:15      阅读:123      评论:0      收藏:0      [点我收藏+]

标签:最大   定义   2-2   技术分享   image   没有   nbsp   折扣   images   

10.1 片段性任务的半梯度控制

技术分享

10.2 n步Sarsa控制

技术分享

10.3 平均奖励:连续任务的新设定

定义一个策略的优劣函数:依照该策略执行的平均奖励

技术分享

 

其中技术分享和起始状态无关,称为各态遍历性。早期任何决策的影响都是暂时性的,长期的平均收益仅仅取决于策略本身和环境的转移概率

$\eta$函数用来评估一个策略的优劣已经足够。获得最大$\eta$函数的策略称为最优策略。

在平均奖励的设定下,回报被定义为奖励和平均奖励的差

技术分享

Bellman方程也可以写为:

技术分享

技术分享

TD误差可以写为:

技术分享

迭代式为:

技术分享

 技术分享

 

10.4 折扣设定的废弃

在折扣设定下,平均奖励为:技术分享因此折扣设定已经没有必要

 

10.5 n步差分半梯度Sarsa

回报:

技术分享

TD误差:

技术分享

 

技术分享

 

增强学习笔记 第十章 On-Policy控制的近似

标签:最大   定义   2-2   技术分享   image   没有   nbsp   折扣   images   

原文地址:http://www.cnblogs.com/milaohu/p/7634612.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!