标签:基础理论 机器学习算法 信号 正交 反馈 未来 汇总 href 开始
今天是2020年2月7日,开始二刷david silver ulc课程.
david silver课件汇总:(共10节课)
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html
一些小总结:
1.强化学习不同于其他机器学习算法,它们的基础理论可以说正交.其他的机器学习算法大多在贝叶斯理论的基础上发展而来.而强化学习是以马尔可夫决策过程MDP<S,A,R,seta,P>为基础而来.它依靠反馈有一定延时的Reward激励信号而学习.
2.马尔可夫性: 未来stage只受当前stage影响,而与过去stage无关.
标签:基础理论 机器学习算法 信号 正交 反馈 未来 汇总 href 开始
原文地址:https://www.cnblogs.com/dynmi/p/12275062.html