码迷,mamicode.com
首页 > 其他好文 > 详细

<强化学习>马尔可夫决策过程MDP

时间:2020-02-12 11:23:07      阅读:95      评论:0      收藏:0      [点我收藏+]

标签:info   idt   www   enter   技术   期望   计算   and   不同   

1.MDP  / NFA    :马尔可夫模型和不确定型有限状态机的不同

    状态自动机:https://www.cnblogs.com/AndyEvans/p/10240790.html

MDP和NFA唯一相似的地方就是它们都有状态转移,抛掉这一点两者就八竿子打不着了。

 

 

 

 

2.MP  -> MRP -> MDP

 

技术图片技术图片技术图片

 

 

 

3.计算给定策略下的价值函数 / 贝尔曼期望方程

 

我们用贝尔曼期望方程求解在某个给定策略π和环境ENV下的价值函数:

技术图片

 

具体解法是:(下面是对于V(s)的解法)

 技术图片

从而对于每一个特定的π,都能得到其对应的价值函数。所以我们可以有一组的{ (π1,value_function_of_π1) ,(π2,value_function_of_π2) ......  }

但是我们解决问题的目标是拿到最优的那组,其他的扔掉,解决方法就是使用贝尔曼最优方程确定最优价值函数。

 

4. 确定最优价值函数 /贝尔曼最优方程 

 

我们的最优价值函数和最优策略是如下定义的,找最优价值函数的过程也就是找最优策略的过程

技术图片

 

  最优价值函数     ====    一个MDP中的可能的最好的表现

 

  解决一个MDP    ====    确定最优价值函数

 

技术图片

技术图片

技术图片

技术图片

 

 

 

<强化学习>马尔可夫决策过程MDP

标签:info   idt   www   enter   技术   期望   计算   and   不同   

原文地址:https://www.cnblogs.com/dynmi/p/12294436.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!