【RL系列】SARSA算法的基本结构

时间：2018-08-03 22:37:49 阅读：235 评论：0 收藏：0 [点我收藏+]

SARSA算法严格上来说，是TD(0)关于状态动作函数估计的on-policy形式，所以其基本架构与TD的$v_{\pi}$估计算法（on-policy）并无太大区别，所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法，并在过程中熟练并总结SARSA算法的流程与基本结构。

强化学习中的统计方法（包括Monte Carlo，TD）在实现episode task时，无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局游戏，那么这个游戏有开始也有结束，统计方法是就是一局接着一局不停的在玩，然后从中总结出最优策略。Monte Carlo与TD的区别在于，Monte Carlo是玩完一局，总结一次，而TD算法是边玩边总结。所以这两层基本结构的外层是以游戏次数为循环，内层则是以游戏过程为循环。

技术分享图片

SARSA作为TD算法下的on-policy control算法，只需边进行游戏边更新动作值函数和Policy即可，所以SARSA算法的内层可以由TD算法细化为如下结构：

技术分享图片

【RL系列】SARSA算法的基本结构

标签：基本结构 ima 化学一个算法学习游戏实际应用结束

原文地址：https://www.cnblogs.com/Jinyublog/p/9416388.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行