首页 > 其他好文 > 详细

强化学习(David Silver)6：值函数近似

时间：2017-08-15 23:32:06 阅读：431 评论：0 收藏：0 [点我收藏+]

标签：类型基于神经网络 lam 两种 nbsp 函数 bsp 决策

0、为什么有值函数近似

状态空间太大，基于DP/MC/TD的方法的离散值太多，存储量太大，运行太慢

1、值函数近似有两种方法

一个是状态值函数方法；一个是状态动作值方法

2、值函数近似的三种类型

类型1：输入状态S，输出v

类型2：输入状态S，action a，输出Q(s,a,w)

类型3：输入状态S，输出Q(s,a1,w)，Q(s,a1,w)

3、逼近函数

逼近函数：特征的线性组合/神经网络/决策树/最近邻/傅里叶基/小波基

训练方法：可以拥有非平稳，非独立同分布的数据

4、梯度下降算法

MC倾向于一个局部最优解；TD倾向于全局最优解

TD(lambda)前向算法好理解

TD(lambda)后向算法的资格迹怎么计算呢？

强化学习(David Silver)6：值函数近似

标签：类型基于神经网络 lam 两种 nbsp 函数 bsp 决策

原文地址：http://www.cnblogs.com/ai1024/p/7368313.html

踩

(0)

赞

(1)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！