码迷,mamicode.com
首页 > 其他好文 > 详细

<强化学习>开门帖

时间:2020-02-08 00:37:15      阅读:88      评论:0      收藏:0      [点我收藏+]

标签:基础理论   机器学习算法   信号   正交   反馈   未来   汇总   href   开始   

今天是2020年2月7日,开始二刷david silver ulc课程.

david silver课件汇总:(共10节课)

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

 

 

一些小总结:

1.强化学习不同于其他机器学习算法,它们的基础理论可以说正交.其他的机器学习算法大多在贝叶斯理论的基础上发展而来.而强化学习是以马尔可夫决策过程MDP<S,A,R,seta,P>为基础而来.它依靠反馈有一定延时的Reward激励信号而学习.

2.马尔可夫性: 未来stage只受当前stage影响,而与过去stage无关.

<强化学习>开门帖

标签:基础理论   机器学习算法   信号   正交   反馈   未来   汇总   href   开始   

原文地址:https://www.cnblogs.com/dynmi/p/12275062.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!