码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
CS294-112 深度强化学习 秋季学期(伯克利)NO.15 Exploration 2
jump over this lecture ...
分类:其他好文   时间:2018-05-29 17:44:24    阅读次数:127
CS294-112 深度强化学习 秋季学期(伯克利)NO.9 Learning policies by imitating optimal controllers
make compromise between learnt policy and minimal cost! π hat is using states π theta is using observations ...
分类:其他好文   时间:2018-05-28 00:51:40    阅读次数:153
CS294-112 深度强化学习 秋季学期(伯克利)NO.6 Value functions introduction NO.7 Advanced Q learning
understand that correlated samples cause problem. and how paralled solve the problem another solution is replay buffers, fully ultilizing the advantag ...
分类:其他好文   时间:2018-05-26 21:26:50    阅读次数:242
CS294-112 深度强化学习 秋季学期(伯克利)NO.5 Actor-critic introduction
in most AC algorithms, we actually just fit value function. less common to fit Q function as well. batch:off line, monte carlo。online: bootstrap,TD ...
分类:其他好文   时间:2018-05-26 13:00:40    阅读次数:233
CS294-112 深度强化学习 秋季学期(伯克利)NO.4 Policy gradients introduction
green bar is the reward function, blue curve is the possibility of differenct trajectories if green bars are equally increased to yellow bars, the res ...
分类:其他好文   时间:2018-05-25 00:27:41    阅读次数:421
强化学习_Q-learning 算法的简明教程
...
分类:编程语言   时间:2018-05-22 15:11:18    阅读次数:181
机器学习基础笔记一
监督学习 非监督学习:学习结构化知识 强化学习 监督学习: 线性回归模型:输出y是连续的 Logistic回归模型(实际上不是回归问题,是分类问题):输出y是0,1离散的 Logistic回归模型: Sigmoid函数:将任何输入变成0与1之间的输出,也用来表示概率 softmax函数:将多个输入变 ...
分类:其他好文   时间:2018-05-08 19:33:31    阅读次数:214
各种 机器学习方法 / 学习范式 汇总
各种机器学习方法(学习范式)汇总 强化学习 入门资料 《深入浅出强化学习原理入门》. 郭宪等编著. 电子工业出版社 An Introduction to Reinforcement Learning , Sutton and Barto, 1998 Algorithms for Reinforcem ...
分类:其他好文   时间:2018-05-01 12:19:54    阅读次数:418
328条   上一页 1 ... 22 23 24 25 26 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!