jump over this lecture ...
分类:
其他好文 时间:
2018-05-29 17:44:24
阅读次数:
127
make compromise between learnt policy and minimal cost! π hat is using states π theta is using observations ...
分类:
其他好文 时间:
2018-05-28 00:51:40
阅读次数:
153
understand that correlated samples cause problem. and how paralled solve the problem another solution is replay buffers, fully ultilizing the advantag ...
分类:
其他好文 时间:
2018-05-26 21:26:50
阅读次数:
242
in most AC algorithms, we actually just fit value function. less common to fit Q function as well. batch:off line, monte carlo。online: bootstrap,TD ...
分类:
其他好文 时间:
2018-05-26 13:00:40
阅读次数:
233
green bar is the reward function, blue curve is the possibility of differenct trajectories if green bars are equally increased to yellow bars, the res ...
分类:
其他好文 时间:
2018-05-25 00:27:41
阅读次数:
421
监督学习 非监督学习:学习结构化知识 强化学习 监督学习: 线性回归模型:输出y是连续的 Logistic回归模型(实际上不是回归问题,是分类问题):输出y是0,1离散的 Logistic回归模型: Sigmoid函数:将任何输入变成0与1之间的输出,也用来表示概率 softmax函数:将多个输入变 ...
分类:
其他好文 时间:
2018-05-08 19:33:31
阅读次数:
214
各种机器学习方法(学习范式)汇总 强化学习 入门资料 《深入浅出强化学习原理入门》. 郭宪等编著. 电子工业出版社 An Introduction to Reinforcement Learning , Sutton and Barto, 1998 Algorithms for Reinforcem ...
分类:
其他好文 时间:
2018-05-01 12:19:54
阅读次数:
418