标签:类型 基于 神经网络 lam 两种 nbsp 函数 bsp 决策
0、为什么有值函数近似
状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢
1、值函数近似有两种方法
一个是状态值函数方法;一个是状态动作值方法
2、值函数近似的三种类型
类型1:输入状态S,输出v
类型2:输入状态S,action a,输出Q(s,a,w)
类型3:输入状态S,输出Q(s,a1,w),Q(s,a1,w)
3、逼近函数
逼近函数:特征的线性组合/神经网络/决策树/最近邻/傅里叶基/小波基
训练方法:可以拥有非平稳,非独立同分布的数据
4、梯度下降算法
MC倾向于一个局部最优解;TD倾向于全局最优解
TD(lambda)前向算法好理解
TD(lambda)后向算法的资格迹怎么计算呢?
标签:类型 基于 神经网络 lam 两种 nbsp 函数 bsp 决策
原文地址:http://www.cnblogs.com/ai1024/p/7368313.html