码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习入门·

时间:2017-10-24 14:06:45      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:暴力   源地址   tail   方法   结束   入门   isod   iso   sdn   

源地址 http://blog.csdn.net/supercally/article/details/54754787

2. 增强学习都有哪些策略

蒙特卡洛方法

简单而言,蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后,再做一个action,根据这个式子,直到episode结束,求出收益的和,就是向前走这个动作的一个采样。我们再不断地在这个状态采样,然后来求平均。等到采样变得非常非常多的时候,我们的统计值就接近期望值了。所以蒙特卡洛方法是一个非常暴力,非常直观的方法。

强化学习入门·

标签:暴力   源地址   tail   方法   结束   入门   isod   iso   sdn   

原文地址:http://www.cnblogs.com/CATHY-MU/p/7722960.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!