码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
学习网站推荐体系
学习网站推荐体系 此博客推荐一些比较好的学习地方,大部分是需要你先把前面的知识学差不多了,在来这里进行强化学习。 博主在很多文章,都放上了中文的官方网站,少部分的英文官方网站,根据需求,自行查找。博主当然也有自己的博客,欢迎查看。 IBM文档库 tengine的:Nginx开发从入门到精通 RHCE ...
分类:Web程序   时间:2017-12-01 16:36:17    阅读次数:179
机器学习 深度学习 强化学习知识脉络
统计学习方法 模型 k近邻(knn):kd树 朴素贝叶斯: 决策树: 逻辑回归与最大熵模型: SVM: CRF: ...
分类:其他好文   时间:2017-11-26 16:54:14    阅读次数:136
CS229 - MachineLearning - 12 强化学习笔记
Ng的机器学习课,课程资源: cs229-课件 网易公开课-视频 问题数学模型: 五元组{S、a、Psa、γ、R},分别对应 {状态、行为、状态s下做出a行为的概率、常数、回报}。 优化目标: 选择一个policy以获得最佳报酬:E[R(s0)+γR(s1)+γ2R(s2)+......],常数γ的 ...
分类:系统相关   时间:2017-11-17 21:09:22    阅读次数:191
读过的好文章~
关于机器学习中的强化学习(reinforcement learning): 知识库:MDP、Q-learning http://blog.csdn.net/songrotek/article/details/50580904 ...
分类:其他好文   时间:2017-11-10 23:12:13    阅读次数:185
DQN 强化学习
pytorch比tenserflow简单。 所以我们模仿用tensorflow写的强化学习。 学习资料: 本节的全部代码 Tensorflow 的 100行 DQN 代码 我制作的 DQN 动画简介 我的 DQN Tensorflow 教程 我的 强化学习 教程 PyTorch 官网 论文 Play ...
分类:其他好文   时间:2017-11-07 18:13:34    阅读次数:526
强化学习 - Q-learning Sarsa 和 DQN 的理解
本文用于基本入门理解。 强化学习的基本理论 : R, S, A 这些就不说了。 先设想两个场景: 一。 1个 5x5 的 格子图, 里面有一个目标点, 2个死亡点二。 一个迷宫, 一个出发点, 3处 分叉点, 5个死角, 1条活路Q-learning 的概念 其实就是一个算法, 数学的,或者软件程序 ...
分类:其他好文   时间:2017-10-30 14:34:44    阅读次数:323
如何选择机器学习模型进行数据分析
Supervised 监督学习 Unsuperivised 非监督学习 Reinforcement 强化学习(alphago,我将Action给环境,环境给我Reward)) Supervised 监督学习 Unsuperivised 非监督学习 Reinforcement 强化学习(alphago ...
分类:其他好文   时间:2017-10-25 19:59:50    阅读次数:177
强化学习入门·
源地址 http://blog.csdn.net/supercally/article/details/54754787 2. 增强学习都有哪些策略 蒙特卡洛方法 简单而言,蒙特卡洛方法就是对这个策略所有可能的结果求平均。我们向前走了以后,再做一个action,根据这个式子,直到episode结束, ...
分类:其他好文   时间:2017-10-24 14:06:45    阅读次数:140
强化学习(David Silver)3:动态规划
1、简介 1.1、动态规划 动态规划的性质:最优子结构;无后向性 动态规划假定MDP所有信息已知,解决的是planning问题,不是RL问题 1.2、两类问题 预测问题:给定策略,给出MDP/MRP和策略,计算策略值函数 控制问题:不给策略,给出MDP/MRP,得出最优策略值函数 任何MDP,都存在 ...
分类:其他好文   时间:2017-10-23 19:24:02    阅读次数:215
强化学习(David Silver)2:MDP(马尔科夫决策过程)
1、MP(马尔科夫过程) 1.1、MDP介绍 1)MDP形式化地强化学习中的环境(此时假设环境完全可以观察) 2) 几乎所有强化学习问题都可以形式化为MDP(部分可观察的环境也可以转化为MDP????) 1.2、MDP定义 MDP是一个二元组<S,P>,其中S是状态集合;P是状态转移概率 2、MRP ...
分类:其他好文   时间:2017-10-23 00:57:10    阅读次数:221
328条   上一页 1 ... 25 26 27 28 29 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!