码迷,mamicode.com
首页 > 编程语言 > 详细

【RL系列】SARSA算法的基本结构

时间:2018-08-03 22:37:49      阅读:235      评论:0      收藏:0      [点我收藏+]

标签:基本结构   ima   化学   一个   算法   学习   游戏   实际应用   结束   

SARSA算法严格上来说,是TD(0)关于状态动作函数估计的on-policy形式,所以其基本架构与TD的$v_{\pi}$估计算法(on-policy)并无太大区别,所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法,并在过程中熟练并总结SARSA算法的流程与基本结构。

强化学习中的统计方法(包括Monte Carlo,TD)在实现episode task时,无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局游戏,那么这个游戏有开始也有结束,统计方法是就是一局接着一局不停的在玩,然后从中总结出最优策略。Monte Carlo与TD的区别在于,Monte Carlo是玩完一局,总结一次,而TD算法是边玩边总结。所以这两层基本结构的外层是以游戏次数为循环,内层则是以游戏过程为循环。

技术分享图片

SARSA作为TD算法下的on-policy control算法,只需边进行游戏边更新动作值函数和Policy即可,所以SARSA算法的内层可以由TD算法细化为如下结构:

技术分享图片

 

 

 

【RL系列】SARSA算法的基本结构

标签:基本结构   ima   化学   一个   算法   学习   游戏   实际应用   结束   

原文地址:https://www.cnblogs.com/Jinyublog/p/9416388.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!