码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习之MDP

时间:2019-06-26 20:44:39      阅读:174      评论:0      收藏:0      [点我收藏+]

标签:地方   src   一个   width   mamicode   auto   现在   info   状态   

前言

最近又入坑RL了,要搞AutoML就要学会RL,真的是心累。。

正文

MDP里面比较重要的就是状态值函数和动作-状态值函数吧,然后再求最优状态值函数和最优动作状态值函数,状态值函数的公式推导一开始不懂,卡在了一个地方,现在记下来,

很关键的一个在于“和的期望等于期望的和

技术图片

强化学习之MDP

标签:地方   src   一个   width   mamicode   auto   现在   info   状态   

原文地址:https://www.cnblogs.com/yqpy/p/11093604.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!