搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

DQN（Deep Q-learning）入门教程（结束）之总结

emm，花了一周时间完成了DQN的从入门到入土，这个系列是完完全全的入门系列，因为讲的内容很简单，内容也比较少，仅仅是一个最基本的介绍。我也是因为偶然的原因才接触到强化学习，然后觉得很有意思，比较好奇它是怎么做到的，于是就花了一段时间去了解，接着就将自己的入门过程就写下来了。这个系列相比较与数据 ...

分类：其他好文时间：2020-05-31 23:20:02 阅读次数：113

《元学习：从Few-Shot学习到快速强化学习(ICML 2019 Tutorial) by Chelsea Finn, Sergey Levine》

元学习：从Few-Shot学习到快速强化学习(ICML 2019 Tutorial) by Chelsea Finn, Sergey Levine https://www.bilibili.com/video/BV1o4411A7YE ...

分类：其他好文时间：2020-05-29 13:35:45 阅读次数：84

《AutoDL论文解读（一）：基于强化学习的开创性工作》

==> 有钱，无脑瞎烧 GPU。 https://blog.csdn.net/u014157632/article/details/101721343 自动化机器学习（AutoML）最近变得越来越火，是机器学习下个发展方向之一。其中的神经网络结构搜索（NAS）是其中重要的技术之一。人工设计网络需要丰 ...

分类：其他好文时间：2020-05-17 09:19:48 阅读次数：78

李宏毅的强化学习视频用于梳理翻阅（2）

Actor-Critic算法在之前的Policy Gradient算法中，其运行结果不够稳定的至少一条原因是：奖励项不够稳定。下图中，蓝色实现标记的当前和随后的奖励累积和，作为评判𝜋生成的轨迹的好坏度量，即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。但是，该累积和受到了策略网络𝜋的影响很大。在相 ...

分类：其他好文时间：2020-05-15 13:46:43 阅读次数：49

卡耐基梅隆大学（CMU）元学习和元强化学习课程 | Elements of Meta-Learning

本文为卡耐基梅隆大学Probabilistic Graphical Models 课程中 Elements of Meta-Learning 关于元学习和元强化学习部分的内容讲解，包括元学习的基础介绍和元强化学习的元素介绍两个部分，具体内容如下： ...

分类：Web程序时间：2020-05-15 09:17:45 阅读次数：79

人工智能领域常用的开源框架和库（含机器学习/深度学习/强化学习/知识图谱/图神经网络）

一、机器学习常用的开源框架和库二、深度学习常用的开源框架和库三、强化学习常用的开源框架和库四、图神经网络常用的开源框架和库五、知识图谱常用的开源框架和库六、智能推荐常用的开源框架和库 ...

分类：其他好文时间：2020-05-14 09:12:36 阅读次数：158

基于胜率矩阵的PageRank排序

在做博弈模型评估的时候，遇到一个问题是如何评价多个模型的优劣。例如我有训练好的三个围棋模型A,B,C，两两之间对打之后有一个胜负关系，如何对这三个模型进行排序呢？通常对于人类选手这种水平有波动的情形，棋类比赛通常计算选手Elo得分按分值排序，足球篮球等通过联赛积分或胜场进行排序，但对于固定不变的AI ...

分类：编程语言时间：2020-05-10 13:17:52 阅读次数：93

机器学习——分类

1.机器学习的主要分类（1）监督学习（Supervised learning） ? 训练数据有目标向量（标签） ? 分类、回归 … （2）非监督学习（Unsupervised learning） ? 训练数据没有目标向量（标签） ? 聚类、密度估计、可视化 … （3）强化学习（Reinforcem ...

分类：其他好文时间：2020-04-26 11:07:02 阅读次数：59

五子棋对弈——MCTS学习

初识AlphaZero AlphaZero能够基于强化学习实现较高技巧的棋类博弈，我看过nb网友实现的基于MCTS的五子棋模型后，惊叹不已！特此记录一下其中训练的一些方法和技巧。 MCTS MCTS是指蒙特卡洛搜索树。蒙特卡洛搜索树没听过的话，想必你是知道蒙特卡罗模拟的。这个模拟过程就是暴力的按照 ...

分类：其他好文时间：2020-04-18 18:59:39 阅读次数：207

【论文研读】强化学习入门之DQN

本文提出了一种Deep Q-Network（DQN），借助端到端(end-to-end)的强化学习方法能够直接从高维的输入中，学习一种很优的策略（policy）。输入是游戏的实时图像（当前`状态S`），借助卷积神经网络捕捉局部特征的关联性，输出所有可能采取`动作A`的概率分布。 ...

分类：其他好文时间：2020-04-18 17:16:22 阅读次数：143

共328条上一页 1 ... 3 4 5 6 7 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)