基于模型的强化学习方法数据效率高,前景可观。本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能。 引言 强化学习领域近期取得的很多成就都是通过无模型强化学习算法 [1,2,3] 实现的。无模型(MF)算法倾向于实现最佳性 ...
分类:
其他好文 时间:
2018-11-13 23:53:10
阅读次数:
228
Yoshua Bengio 等人组织的深度学习&强化学习夏季课程最近放出了课程视频,课程PPT早些时候也都放了出来。该课程主要通过深度学习与强化学习从理论到实践介绍各种先进方法,并覆盖了机器学习发展前沿的方方面面。视频并没有带英文字幕。 课程视频地址http://videolectures.net/ ...
分类:
其他好文 时间:
2018-11-11 19:11:23
阅读次数:
133
最近学习强化学习和机器学习,意识到数据分析的重要性,就开始补Python的几个科学计算库,并总结到博客中。本篇博客中用到的代码在这里下载。 什么是Numpy? NumPy是Python数值计算最重要的基础包,支持高级大量的维度数组与矩阵运算,大多数提供科学计算的包都是使用Numpy的数组作为构建基础 ...
分类:
其他好文 时间:
2018-11-05 20:03:41
阅读次数:
127
网上搜寻到的代码,亲测比较好用,分享如下。 ...
分类:
其他好文 时间:
2018-11-03 14:41:08
阅读次数:
288
一、前言 在第一章强化学习简介中,我们提到强化学习过程可以看做一系列的state、reward、action的组合。本章我们将要介绍马尔科夫决策过程(Markov Decision Processes)用于后续的强化学习研究中。 二、马尔科夫过程(Markov Processes) 2.1 马尔科夫 ...
分类:
其他好文 时间:
2018-11-01 00:56:40
阅读次数:
238
Gym 用于研发与比较强化学习算法的工具。 安装 环境 车杆问题,模型栗子CartPole-v0 env.step() ,传入0,1,表示车向左,右给1牛顿的力,现在要平衡这个车。 我们可以尝试一下,01010101,现实生活中,会让这根杆转起来,当然这不是我们平衡这个车的目标咯。 当然,我们可以切 ...
分类:
其他好文 时间:
2018-10-30 13:05:57
阅读次数:
235
随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视。最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下。 强化学习定义 先借用维基百科上对强化学习的标准定义: 强化学习(Reinforcement Learning,简称RL)是机器学习中的一 ...
分类:
其他好文 时间:
2018-10-27 18:42:10
阅读次数:
226
Lecture1 Introduction and Basic Concepts 一、机器学习定义 二、机器学习算法 - Supervised learning 监督学习 - Unsupervised learning 无监督学习 - Reinforcement learning 强化学习 - Re ...
分类:
其他好文 时间:
2018-10-26 19:44:44
阅读次数:
127
在强化学习中,设计密集、定义良好的外部奖励是很困难的,并且通常不可扩展。通常增加内部奖励可以作为对此限制的补偿,OpenAI、CMU 在本研究中更近一步,提出了完全靠内部奖励即好奇心来训练智能体的方法。在 54 个环境上的大规模实验结果表明:内在好奇心目标函数和手工设计的外在奖励高度一致;随机特征也 ...
分类:
编程语言 时间:
2018-10-22 00:05:11
阅读次数:
163
在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 201 ...
分类:
其他好文 时间:
2018-10-08 21:44:09
阅读次数:
196