搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

DRL 教程 | 如何保持运动小车上的旗杆屹立不倒？TensorFlow利用A3C算法训练智能体玩CartPole游戏

本教程讲解如何使用深度强化学习训练一个可以在 CartPole 游戏中获胜的模型。研究人员使用 tf.keras、OpenAI 训练了一个使用「异步优势动作评价」（Asynchronous Advantage Actor Critic，A3C）算法的智能体，通过 A3C 的实现解决了 CartPol ...

分类：编程语言时间：2018-10-01 10:41:52 阅读次数：225

强化学习是如何解决问题的？

强化学习是如何解决问题的？什么是强化学习算法呢，它离我们有多远？2016年和2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件，其核心算法就用到了强化学习算法。相信很多人想了解或者转行研究强化学习算法或多或少都跟这两场赛事有联系。如今，强化学习继深度学习之后，成为学术界和工业界追 ...

分类：其他好文时间：2018-10-01 10:37:50 阅读次数：210

复现一篇深度强化学习论文之前请先看了这篇文章！

去年，OpenAI和DeepMind联手做了当时最酷的实验，不用经典的奖励信号来训练智能体，而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences，原始论文是《 Deep Reinforcement Learning from ...

分类：其他好文时间：2018-10-01 10:37:35 阅读次数：243

深度强化学习泡沫及路在何方？

一、深度强化学习的泡沫 2015年，DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1]，该论文提出了一个结合深度学习（DL）技术和强化学习（RL）思想的模型 ...

分类：其他好文时间：2018-10-01 10:37:20 阅读次数：263

复现深度强化学习论文经验之谈

近期深度强化学习领域日新月异，其中最酷的一件事情莫过于 OpenAI 和 DeepMind 训练智能体接收人类的反馈而不是传统的奖励信号。本文作者认为复现论文是提升机器学习技能的最好方式之一，所以选择了 OpenAI 论文《Deep Reinforcement Learning from Human ...

分类：其他好文时间：2018-09-29 23:58:42 阅读次数：378

是否要入坑“深度强化学习”，看了这篇论文再说！

今天在学校又双叒叕提到了 Deep Reinforcement Learning That Matters 这篇打响 DRL（Deep Reinforcement Learning, 深度强化学习）劝退第一枪的文章后，回来以后久违刷了一下推特，看到了这篇爆文 Deep Reinforcement L ...

分类：其他好文时间：2018-09-29 23:53:26 阅读次数：189

强化学习（八）价值函数的近似表示与Deep Q-Learning

在强化学习系列的前七篇里，我们主要讨论的都是规模比较小的强化学习问题求解算法。今天开始我们步入深度强化学习。这一篇关注于价值函数的近似表示和Deep Q-Learning算法。 Deep Q-Learning这一篇对应Sutton书的第11章部分和UCL强化学习课程的第六讲。 1. 为何需要价值函数 ...

分类：其他好文时间：2018-09-28 17:41:59 阅读次数：237

初识机器学习

机器学习的定义：让机器代替人，实现人的工作。现有的机器学习分类：（1）监督学习 > 分类问题（2）半监督学习 > 聚类问题（3）非监督学习 > 聚类问题（4）强化学习 > 降维归纳：主要可分为：分类、回归/预测、聚类和维度下降。机器学习“六步走”： a.收集数据； b.准备数据 c ...

分类：其他好文时间：2018-09-25 17:26:11 阅读次数：175

Pytorch中的强化学习

torch.distributions.Categorical() 功能：根据概率分布来产生sample，产生的sample是输入tensor的index 如： >>> m = Categorical(torch.tensor([ 0.25, 0.25, 0.25, 0.25 ])) >>> m.s ...

分类：其他好文时间：2018-09-23 16:26:33 阅读次数：2068

论文翻译：Mastering the Game of Go without Human Knowledge (第一部分)

长久以来，人工智能的一个目标是在那些具有挑战性的领域实现超过人类表现的算法。最近，AlphaGo成为了在围棋上第一个打败了世界冠军的程序。在AlphaGo中，使用深度神经网络来进行树搜索，评估位置，和选择下一步动作。这些神经网络使用人类的专家数据进行监督学习，以及通过自我对弈进行强化学习。在这里，我... ...

分类：其他好文时间：2018-09-22 23:47:14 阅读次数：605

共328条上一页 1 ... 18 19 20 21 22 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)