码迷,mamicode.com
首页 > 其他好文 > 详细

强化学习(David Silver)6:值函数近似

时间:2017-08-15 23:32:06      阅读:431      评论:0      收藏:0      [点我收藏+]

标签:类型   基于   神经网络   lam   两种   nbsp   函数   bsp   决策   

0、为什么有值函数近似

状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢

1、值函数近似有两种方法

一个是状态值函数方法;一个是状态动作值方法

2、值函数近似的三种类型

类型1:输入状态S,输出v

类型2:输入状态S,action a,输出Q(s,a,w)

类型3:输入状态S,输出Q(s,a1,w),Q(s,a1,w)

3、逼近函数

逼近函数:特征的线性组合/神经网络/决策树/最近邻/傅里叶基/小波基

训练方法:可以拥有非平稳,非独立同分布的数据

4、梯度下降算法

MC倾向于一个局部最优解;TD倾向于全局最优解

TD(lambda)前向算法好理解

TD(lambda)后向算法的资格迹怎么计算呢?

 

强化学习(David Silver)6:值函数近似

标签:类型   基于   神经网络   lam   两种   nbsp   函数   bsp   决策   

原文地址:http://www.cnblogs.com/ai1024/p/7368313.html

(0)
(1)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!