学习网站推荐体系 此博客推荐一些比较好的学习地方,大部分是需要你先把前面的知识学差不多了,在来这里进行强化学习。 博主在很多文章,都放上了中文的官方网站,少部分的英文官方网站,根据需求,自行查找。博主当然也有自己的博客,欢迎查看。 IBM文档库 tengine的:Nginx开发从入门到精通 RHCE ...
分类:
Web程序 时间:
2017-12-01 16:36:17
阅读次数:
179
统计学习方法 模型 k近邻(knn):kd树 朴素贝叶斯: 决策树: 逻辑回归与最大熵模型: SVM: CRF: ...
分类:
其他好文 时间:
2017-11-26 16:54:14
阅读次数:
136
Ng的机器学习课,课程资源: cs229-课件 网易公开课-视频 问题数学模型: 五元组{S、a、Psa、γ、R},分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。 优化目标: 选择一个policy以获得最佳报酬:E[R(s0)+γR(s1)+γ2R(s2)+......],常数γ的 ...
分类:
系统相关 时间:
2017-11-17 21:09:22
阅读次数:
191
关于机器学习中的强化学习(reinforcement learning): 知识库:MDP、Q-learning http://blog.csdn.net/songrotek/article/details/50580904 ...
分类:
其他好文 时间:
2017-11-10 23:12:13
阅读次数:
185
pytorch比tenserflow简单。 所以我们模仿用tensorflow写的强化学习。 学习资料: 本节的全部代码 Tensorflow 的 100行 DQN 代码 我制作的 DQN 动画简介 我的 DQN Tensorflow 教程 我的 强化学习 教程 PyTorch 官网 论文 Play ...
分类:
其他好文 时间:
2017-11-07 18:13:34
阅读次数:
526
本文用于基本入门理解。 强化学习的基本理论 : R, S, A 这些就不说了。 先设想两个场景: 一。 1个 5x5 的 格子图, 里面有一个目标点, 2个死亡点二。 一个迷宫, 一个出发点, 3处 分叉点, 5个死角, 1条活路Q-learning 的概念 其实就是一个算法, 数学的,或者软件程序 ...
分类:
其他好文 时间:
2017-10-30 14:34:44
阅读次数:
323
Supervised 监督学习 Unsuperivised 非监督学习 Reinforcement 强化学习(alphago,我将Action给环境,环境给我Reward)) Supervised 监督学习 Unsuperivised 非监督学习 Reinforcement 强化学习(alphago ...
分类:
其他好文 时间:
2017-10-25 19:59:50
阅读次数:
177
源地址 http://blog.csdn.net/supercally/article/details/54754787 2. 增强学习都有哪些策略 蒙特卡洛方法 简单而言,蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后,再做一个action,根据这个式子,直到episode结束, ...
分类:
其他好文 时间:
2017-10-24 14:06:45
阅读次数:
140
1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 任何MDP,都存在 ...
分类:
其他好文 时间:
2017-10-23 19:24:02
阅读次数:
215
1、MP(马尔科夫过程) 1.1、MDP介绍 1)MDP形式化地强化学习中的环境(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP(部分可观察的环境也可以转化为MDP????) 1.2、MDP定义 MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率 2、MRP ...
分类:
其他好文 时间:
2017-10-23 00:57:10
阅读次数:
221