码迷,mamicode.com
首页 > 其他好文 > 详细

<强化学习>基于采样迭代优化agent

时间:2020-02-14 20:25:06      阅读:71      评论:0      收藏:0      [点我收藏+]

标签:image   最优   alt   复杂   size   font   ||   mic   iso   

前面介绍了三种采样求均值的算法

——MC

——TD

——TD(lamda)

下面我们基于这几种方法来 迭代优化agent

 

传统的强化学习算法

||

ν

ν

技术图片

 

已经知道完整MDP——使用价值函数V(s)

没有给出完整MDP——使用价值函数Q(s,a)

 

可见我们的目标就是确定下来最优策略最优价值函数

  |

  |——有完整MDP &&  用DP解决复杂度较低                                     

  |                       ====》  使用贝尔曼方程和贝尔曼最优方程求解

  |——没有完整MDP(ENV未知) or 知道MDP但是硬解MDP问题复杂度太高

  |                       ====》  policy evaluation使用采样求均值的方法

  |                              |——  ON-POLICY MC

  |                                 |——  ON-POLICY TD

  |                              |____ OFF-POLICY TD

                                    

 1. ON-POLICY 和OFF-POLICY

 on policy  :基于策略A采样获取episode,并且被迭代优化的策略也是A

 off policy  :基于策略A采样获取episode,而被迭代优化的策略是B

 

 2.为什么ε-greedy探索在on policyRL算法中行之有效?

技术图片

 

<强化学习>基于采样迭代优化agent

标签:image   最优   alt   复杂   size   font   ||   mic   iso   

原文地址:https://www.cnblogs.com/dynmi/p/12308173.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!