<强化学习>开门帖

时间：2020-02-08 00:37:15 阅读：88 评论：0 收藏：0 [点我收藏+]

今天是2020年2月7日,开始二刷david silver ulc课程.

david silver课件汇总:(共10节课)

一些小总结:

1.强化学习不同于其他机器学习算法,它们的基础理论可以说正交.其他的机器学习算法大多在贝叶斯理论的基础上发展而来.而强化学习是以马尔可夫决策过程MDP<S,A,R,seta,P>为基础而来.它依靠反馈有一定延时的Reward激励信号而学习.

2.马尔可夫性: 未来stage只受当前stage影响,而与过去stage无关.

原文地址：https://www.cnblogs.com/dynmi/p/12275062.html

踩

(0)

评论一句话评论（0）