搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

增量式强化学习

线性逼近：相比较于非线性逼近，线性逼近的好处是只有一个最优值，因此可以收敛到全局最优。其中为状态s处的特征函数，或者称为基函数。常用的基函数的类型为：增量式方法参数更新过程随机性比较大，尽管计算简单，但样本数据的利用效率并不高。而批的方法，尽管计算复杂，但计算效率高。批处理方法：深度强化学... ...

分类：其他好文时间：2017-08-26 13:43:49 阅读次数：221

目录结构

结构树 1. 算法导论数据结构算法 2. 传统智能算法蚁群算法遗传算法模拟退火算法禁忌搜索 3. 机器学习前沿算法小样本学习贝叶斯推理及理论图模型核方法谱方法 4. 优化方法深度 5. 深度学习梯度方法探讨强化学习迁移学习对抗学习表示学习稀疏学习主动学习 NLP ...

分类：其他好文时间：2017-08-24 21:33:28 阅读次数：135

算法导论 Exercises 22.5（转载）

Exercises 22.5 - 算法导论.英文第3版最近看书的同时, 感觉一些练习缺少参考, 所以按部分总结了自己的解答, 也能够强化学习过程. 如有不足或疑问, 欢迎指正. Exercises 22.5-1 How can the number of strongly connected co ...

分类：编程语言时间：2017-08-23 21:37:59 阅读次数：180

强化学习(David Silver)7：策略梯度算法

1、value based方法/policy based方法优劣学生指出：因为value based需要更多的存储 silver：why？ silver：（自问自答）因为策略值比值函数更有效 PPT总结：优势：更好的收敛特性在高维或者连续的action空间里面有效可以学习随机策略劣势： ...

分类：编程语言时间：2017-08-17 12:40:01 阅读次数：203

强化学习(David Silver)6：值函数近似

0、为什么有值函数近似状态空间太大，基于DP/MC/TD的方法的离散值太多，存储量太大，运行太慢 1、值函数近似有两种方法一个是状态值函数方法；一个是状态动作值方法 2、值函数近似的三种类型类型1：输入状态S，输出v 类型2：输入状态S，action a，输出Q(s,a,w) 类型3：输入状态 ...

分类：其他好文时间：2017-08-15 23:32:06 阅读次数：431

强化学习(David Silver)4：免模型控制

1、一般的策略迭代优化的方法 1)策略评估 2)策略改善 2、model free的策略迭代优化的方法基于v(s)的优化需要MDP，基于Q的优化不需要，所以策略是 1)使用Q函数策略评估 2)使用厄普西隆贪心策略优化缺点：非常慢修正方案：不用积累一批episode再优化；每个episode都优 ...

分类：其他好文时间：2017-08-14 10:06:35 阅读次数：260

强化学习(David Silver)4：免模型学习

0、为什么免模型学习？ PS：课程中迭代的值是值函数；周志华老师的西瓜书中迭代的是状态值函数；课程中迭代的是状态-动作值函数 1、蒙特卡洛方法：直接通过采样求和（v(s) = S(s)/n(s)，其中S(s) = S(s) + G(t)，G(t)=r(t+1)+r(t+2)+...） 1.1、蒙特卡 ...

分类：其他好文时间：2017-08-13 22:12:57 阅读次数：1149

学习笔记TF037:实现强化学习策略网络

强化学习(Reinforcement Learing)，机器学习重要分支，解决连续决策问题。强化学习问题三概念，环境状态(Environment State)、行动(Action)、奖励(Reward)，目标获得最多累计奖励。强化学习模型根据环境状态、行动和奖励，学习出最佳策略，以最终结果为目标，不 ...

分类：其他好文时间：2017-08-12 11:52:05 阅读次数：416

Facebook开源游戏平台ELF: 一个用于实时战略游戏研究的轻量级平台

ELF是一个用于游戏研究的应用广泛的（Extensive）、轻量级的（Lightweight）、灵活的（Flexible）平台，特别适用于实时战略（RTS）游戏。在C++方面，ELF采用C++线程来并发运行多个游戏。在Python方面，ELF可以一次性返回一批游戏状态，使其对现代RL（强化学习）非常 ...

分类：其他好文时间：2017-07-08 19:45:41 阅读次数：170

强化学习之智能出租车项目总结

项目介绍这是优达学院机器学习课程的第4个实习项目，需要训练智能出租车学习交通规则，然后安全可靠地到达目的地。项目通过循序渐进的方式展开，从熟悉基本的领域知识开始，再以随机动作来直观感受智能车的状态，也是在这一步，让初学者有了心潮澎湃的感觉，“车终于动了！”，是的，从0开始一路走来，以游戏闯关的方式 ...

分类：其他好文时间：2017-06-22 18:29:10 阅读次数：253

共328条上一页 1 ... 27 28 29 30 31 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)