码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习(David Silver)2:MDP(马尔科夫决策过程)

时间:2017-10-23 00:57:10      阅读:221      评论:0      收藏:0      [点我收藏+]

标签:元组   决定   关系   化学   集合   动作   ring   action   均值   

1、MP(马尔科夫过程)

1.1、MDP介绍

1)MDP形式化地强化学习中的环境(此时假设环境完全可以观察)

2) 几乎所有强化学习问题都可以形式化为MDP(部分可观察的环境也可以转化为MDP????)

1.2、MDP定义

MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率

2、MRP(马尔科夫奖励过程)

在MP中加入了Reward

Reward在状态后直接产生(课程中使用的G(GrossReturn),是当前状态后所有Reward的和,是从T+1时间开始计算的,使用折扣累积的收益)

状态值函数:某个状态后的收益总和的期望

贝尔曼方程:

v(st)=R(T)+LAMBDA*

在MRP中,即时收益和action无关;仅和状态有关,状态出现后即产生收益

MRP的贝尔曼方程是一个线性方程组,可以直接求解;MRP不可以

MRP的迭代解法:DP/MC/TD

3、MDP(马尔科夫决策过程)

状态值函数和动作值函数的关系

最优策略:最优策略的所有状态值函数都比其它策略的状态值函数大

最优策略使得值函数达到最优

最优策略使得动作值函数达到最优

最优值函数是从某个最优动作选择的;最优动作值函数,却是加和所有状态值函数(*****因为策略觉得动作选择;而MDP决定状态转移,状态转移和策略无关)

最优策略没有公式解

求解方式:值迭代;策略迭代;Q-learing;Sarsa

4、MDP扩展

无限/连续MDP

部分观察MDP

无折扣,均值MDP

 

Question:

1、为什么说部分可观察的环境也可以转化为MDP

强化学习(David Silver)2:MDP(马尔科夫决策过程)

标签:元组   决定   关系   化学   集合   动作   ring   action   均值   

原文地址:http://www.cnblogs.com/ai1024/p/7712636.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!