码迷,mamicode.com
首页 > 其他好文 > 详细

马尔科夫模型(Markov)(MDP)

时间:2018-05-21 16:12:31      阅读:161      评论:0      收藏:0      [点我收藏+]

标签:模型   最快   com   技术   info   设置   方式   inf   负数   

马尔科夫模型主要元素有3个部分  状态,动作,奖励。

对奖励的设置一定慎重,并且深谋远虑。如下图右侧:

绿色方块是 生  红色方块是 死,游戏目的是使agent尽快到达绿色方块。

1:动作奖励正数过高,会使agent一直在方格世界里兜圈子,不想出去。因为这样每多走一步,都会获得正的奖励。

2:动作奖励负数过高,会使agent尽快想逃离这个世界,甚至直接走向红色方块,选择自杀。因为每一步损失都是巨大的,只能以最快的方式结束游戏。

技术分享图片

 

马尔科夫模型(Markov)(MDP)

标签:模型   最快   com   技术   info   设置   方式   inf   负数   

原文地址:https://www.cnblogs.com/HL-blog/p/9067269.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!