<强化学习>马尔可夫决策过程MDP

时间：2020-02-12 11:23:07 阅读：95 评论：0 收藏：0 [点我收藏+]

1.MDP / NFA ：马尔可夫模型和不确定型有限状态机的不同

　　　　状态自动机：https://www.cnblogs.com/AndyEvans/p/10240790.html

MDP和NFA唯一相似的地方就是它们都有状态转移，抛掉这一点两者就八竿子打不着了。

2.MP -> MRP -> MDP

技术图片

3.计算给定策略下的价值函数 / 贝尔曼期望方程

我们用贝尔曼期望方程求解在某个给定策略π和环境ENV下的价值函数：

具体解法是：（下面是对于V(s)的解法）

技术图片

从而对于每一个特定的π，都能得到其对应的价值函数。所以我们可以有一组的{ (π₁,value_function_of_π₁) ，(π₂,value_function_of_π₂) ...... }

但是我们解决问题的目标是拿到最优的那组，其他的扔掉，解决方法就是使用贝尔曼最优方程确定最优价值函数。

4. 确定最优价值函数 /贝尔曼最优方程

我们的最优价值函数和最优策略是如下定义的，找最优价值函数的过程也就是找最优策略的过程

　　最优价值函数 ==== 一个MDP中的可能的最好的表现

　　解决一个MDP ==== 确定最优价值函数

技术图片

原文地址：https://www.cnblogs.com/dynmi/p/12294436.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行