最近在在学习强化学习方面的东西, 对于现有的很多文章中关于强化学习的知识很是不理解,很多都是一个公式套一个公式,也没有什么太多的解释,感觉像是在看天书一般,经过了较长时间的挣扎最后决定从一些基础的东西开始入手,于是便有了这篇论文的发现。 Learning from Delayed Reward ...
分类:
其他好文 时间:
2019-01-11 21:17:20
阅读次数:
461
Asynchronous Advantage Actor-Critic (A3C) A3C 的算法实际上就是将 Actor-Critic 放在了多个线程中进行同步训练. 可以想象成几个人同时在玩一样的游戏, 而他们玩游戏的经验都会同步上传到一个中央大脑. 然后他们又从中央大脑中获取最新的玩游戏方法. ...
分类:
其他好文 时间:
2019-01-11 18:01:49
阅读次数:
197
Deep_Deterministic_Policy_Gradient 逻辑梳理: 1、DDPG是AC 模型,输入包括(S,R,S_,A) 2、Actor intput:(S) output: a loss :max(q) q 来自Critic 3、Critic input : S 、A output ...
分类:
其他好文 时间:
2019-01-09 23:27:07
阅读次数:
394
Policy Gradient 可以直接预测出动作,也可以预测连续动作,但是无法单步更新。 QLearning 先预测出Q值,根据Q值选动作,无法预测连续动作、或者动作种类多的情况,但是可以单步更新。 一句话概括 Actor Critic 方法: 结合了 Policy Gradient (Actor ...
分类:
其他好文 时间:
2019-01-09 13:30:44
阅读次数:
1020
本篇博客主要是讲一下强化学习的一些常用平台, 强化学习的发展已经好多年了,以前都是大家做什么实验然后都是自己编写环境代码,由于很多人的代码都是不公开的所以其他人要继续做前人的工作就需要自己重新构建环境代码,这样做一方面做了很多重复工作,浪费了大量的时间,而且很没有必要,另一方面每个人都重新编写各自的 ...
分类:
其他好文 时间:
2019-01-06 15:33:51
阅读次数:
189
openAI 公司给出了一个集成较多环境的强化学习平台 gym , 本篇博客主要是讲它怎么安装。 openAI公司的主页: https://www.openai.com/systems/ 从主页上我们可以看到openAI 公司其实给出了多个强化学习的平台,不过最主要的就是 Gym 和 Baselin ...
分类:
编程语言 时间:
2019-01-06 00:32:12
阅读次数:
416
Policy Gradient综述: Policy Gradient,通过学习当前环境,直接给出要输出的动作的概率值。 Policy Gradient 不是单步更新,只能等玩完一个epoch,再更新参数,所以是一个off-policy 数学推导 最大化R,,用梯度下降,需要求R的梯度。 vt的计算 ...
分类:
其他好文 时间:
2019-01-05 22:41:56
阅读次数:
281
[TOC] 机器学习英雄访谈录之 Kaggle Kernels 专家:Aakash Nain "Sanyam Bhutani" 是 Medium 上一位专注 ML 和 CV 的博主,本系列翻译自他进行的系列采访——《机器学习英雄访谈录》。 学习从模仿开始,要模仿就要模仿那些最棒的人 ,这是我开始本系 ...
分类:
其他好文 时间:
2018-12-27 23:42:28
阅读次数:
181
街机想必大家都不会很陌生,还记得以前的时候,为了玩上一会儿街机,每次放假都会疯狂的往游戏厅狂奔,现在回想起那时,还是别有一番韵味。今天我们来利用Python弄一个操作方式非常亲民,并且可以玩任意一款旧街机游戏的API的开源Python库。 这是一个允许你在几乎任何街机游戏中训练你的强化学习算法的Py ...
分类:
编程语言 时间:
2018-12-25 16:55:41
阅读次数:
217
本文作者:hhh5460 本文地址:https://www.cnblogs.com/hhh5460/p/10159331.html 特别感谢:本文的三幅图皆来自莫凡的教程 https://morvanzhou.github.io/ pandas是基于numpy的,但是两者之间的操作有区别,故在实现上 ...
分类:
编程语言 时间:
2018-12-22 01:06:09
阅读次数:
222