线性逼近: 相比较于非线性逼近,线性逼近的好处是只有一个最优值,因此可以收敛到全局最优。其中为状态s处的特征函数,或者称为基函数。 常用的基函数的类型为: 增量式方法参数更新过程随机性比较大,尽管计算简单,但样本数据的利用效率并不高。而批的方法,尽管计算复杂,但计算效率高。 批处理方法: 深度强化学... ...
分类:
其他好文 时间:
2017-08-26 13:43:49
阅读次数:
221
结构树 1. 算法导论 数据结构 算法 2. 传统智能算法 蚁群算法 遗传算法 模拟退火算法 禁忌搜索 3. 机器学习 前沿算法 小样本学习 贝叶斯推理及理论 图模型 核方法 谱方法 4. 优化方法深度 5. 深度学习 梯度方法探讨 强化学习 迁移学习 对抗学习 表示学习 稀疏学习 主动学习 NLP ...
分类:
其他好文 时间:
2017-08-24 21:33:28
阅读次数:
135
Exercises 22.5 - 算法导论.英文第3版 最近看书的同时, 感觉一些练习缺少参考, 所以按部分总结了自己的解答, 也能够强化学习过程. 如有不足或疑问, 欢迎指正. Exercises 22.5-1 How can the number of strongly connected co ...
分类:
编程语言 时间:
2017-08-23 21:37:59
阅读次数:
180
1、value based方法/policy based方法优劣 学生指出:因为value based需要更多的存储 silver:why? silver:(自问自答)因为策略值比值函数更有效 PPT总结: 优势: 更好的收敛特性 在高维或者连续的action空间里面有效 可以学习随机策略 劣势: ...
分类:
编程语言 时间:
2017-08-17 12:40:01
阅读次数:
203
0、为什么有值函数近似 状态空间太大,基于DP/MC/TD的方法的离散值太多,存储量太大,运行太慢 1、值函数近似有两种方法 一个是状态值函数方法;一个是状态动作值方法 2、值函数近似的三种类型 类型1:输入状态S,输出v 类型2:输入状态S,action a,输出Q(s,a,w) 类型3:输入状态 ...
分类:
其他好文 时间:
2017-08-15 23:32:06
阅读次数:
431
1、一般的策略迭代优化的方法 1)策略评估 2)策略改善 2、model free的策略迭代优化的方法 基于v(s)的优化需要MDP,基于Q的优化不需要,所以策略是 1)使用Q函数策略评估 2)使用厄普西隆贪心策略优化 缺点:非常慢 修正方案:不用积累一批episode再优化;每个episode都优 ...
分类:
其他好文 时间:
2017-08-14 10:06:35
阅读次数:
260
0、为什么免模型学习? PS:课程中迭代的值是值函数;周志华老师的西瓜书中迭代的是状态值函数;课程中迭代的是状态-动作值函数 1、蒙特卡洛方法:直接通过采样求和(v(s) = S(s)/n(s),其中S(s) = S(s) + G(t),G(t)=r(t+1)+r(t+2)+...) 1.1、蒙特卡 ...
分类:
其他好文 时间:
2017-08-13 22:12:57
阅读次数:
1149
强化学习(Reinforcement Learing),机器学习重要分支,解决连续决策问题。强化学习问题三概念,环境状态(Environment State)、行动(Action)、奖励(Reward),目标获得最多累计奖励。强化学习模型根据环境状态、行动和奖励,学习出最佳策略,以最终结果为目标,不 ...
分类:
其他好文 时间:
2017-08-12 11:52:05
阅读次数:
416
ELF是一个用于游戏研究的应用广泛的(Extensive)、轻量级的(Lightweight)、灵活的(Flexible)平台,特别适用于实时战略(RTS)游戏。在C++方面,ELF采用C++线程来并发运行多个游戏。在Python方面,ELF可以一次性返回一批游戏状态,使其对现代RL(强化学习)非常 ...
分类:
其他好文 时间:
2017-07-08 19:45:41
阅读次数:
170
项目介绍 这是优达学院机器学习课程的第4个实习项目,需要训练智能出租车学习交通规则,然后安全可靠地到达目的地。项目通过循序渐进的方式展开,从熟悉基本的领域知识开始,再以随机动作来直观感受智能车的状态,也是在这一步,让初学者有了心潮澎湃的感觉,“车终于动了!”,是的,从0开始一路走来,以游戏闯关的方式 ...
分类:
其他好文 时间:
2017-06-22 18:29:10
阅读次数:
253