emm,花了一周时间完成了DQN的从入门到入土,这个系列是完完全全的入门系列,因为讲的内容很简单,内容也比较少,仅仅是一个最基本的介绍。 我也是因为偶然的原因才接触到强化学习,然后觉得很有意思,比较好奇它是怎么做到的,于是就花了一段时间去了解,接着就将自己的入门过程就写下来了。 这个系列相比较与数据 ...
分类:
其他好文 时间:
2020-05-31 23:20:02
阅读次数:
113
元学习:从Few-Shot学习到快速强化学习(ICML 2019 Tutorial) by Chelsea Finn, Sergey Levine https://www.bilibili.com/video/BV1o4411A7YE ...
分类:
其他好文 时间:
2020-05-29 13:35:45
阅读次数:
84
==> 有钱,无脑瞎烧 GPU。 https://blog.csdn.net/u014157632/article/details/101721343 自动化机器学习(AutoML)最近变得越来越火,是机器学习下个发展方向之一。其中的神经网络结构搜索(NAS)是其中重要的技术之一。人工设计网络需要丰 ...
分类:
其他好文 时间:
2020-05-17 09:19:48
阅读次数:
78
Actor-Critic算法 在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。 下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判𝜋生成的轨迹的好坏度量,即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。 但是,该累积和受到了策略网络𝜋的影响很大。在相 ...
分类:
其他好文 时间:
2020-05-15 13:46:43
阅读次数:
49
本文为卡耐基梅隆大学Probabilistic Graphical Models 课程中 Elements of Meta-Learning 关于元学习和元强化学习部分的内容讲解,包括元学习的基础介绍和元强化学习的元素介绍两个部分,具体内容如下: ...
分类:
Web程序 时间:
2020-05-15 09:17:45
阅读次数:
79
一、机器学习常用的开源框架和库 二、深度学习常用的开源框架和库 三、强化学习常用的开源框架和库 四、图神经网络常用的开源框架和库 五、知识图谱常用的开源框架和库 六、智能推荐常用的开源框架和库 ...
分类:
其他好文 时间:
2020-05-14 09:12:36
阅读次数:
158
在做博弈模型评估的时候,遇到一个问题是如何评价多个模型的优劣。例如我有训练好的三个围棋模型A,B,C,两两之间对打之后有一个胜负关系,如何对这三个模型进行排序呢?通常对于人类选手这种水平有波动的情形,棋类比赛通常计算选手Elo得分按分值排序,足球篮球等通过联赛积分或胜场进行排序,但对于固定不变的AI ...
分类:
编程语言 时间:
2020-05-10 13:17:52
阅读次数:
93
1.机器学习的主要分类 (1)监督学习(Supervised learning) ? 训练数据有目标向量(标签) ? 分类、回归 … (2)非监督学习(Unsupervised learning) ? 训练数据没有目标向量(标签) ? 聚类、密度估计、可视化 … (3)强化学习(Reinforcem ...
分类:
其他好文 时间:
2020-04-26 11:07:02
阅读次数:
59
初识AlphaZero AlphaZero能够基于强化学习实现较高技巧的棋类博弈,我看过nb网友实现的基于MCTS的五子棋模型后,惊叹不已!特此记录一下其中训练的一些方法和技巧。 MCTS MCTS是指蒙特卡洛搜索树。 蒙特卡洛搜索树没听过的话,想必你是知道蒙特卡罗模拟的。这个模拟过程就是暴力的按照 ...
分类:
其他好文 时间:
2020-04-18 18:59:39
阅读次数:
207
本文提出了一种Deep Q-Network(DQN),借助端到端(end-to-end)的强化学习方法能够直接从高维的输入中,学习一种很优的策略(policy)。输入是游戏的实时图像(当前`状态S`),借助卷积神经网络捕捉局部特征的关联性,输出所有可能采取`动作A`的概率分布。 ...
分类:
其他好文 时间:
2020-04-18 17:16:22
阅读次数:
143