搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

百度PaddlePaddle再获新技能智能推荐、对话系统、控制领域都能搞定！

编辑文章引言：人工智能技术越来越广泛的应用于各行各业，而这一切都离不开底层深度学习框架的支持。近日，百度深度学习PaddlePaddle正式发布了强化学习框架PARL，同时开源了基于该框架，在NeurIPS 2018强化学习赛事中夺冠的模型完整训练代码，再次向业界展示了百度在深度学习领域的技术能力 ...

分类：其他好文时间：2019-02-13 20:56:08 阅读次数：206

机器学习工程师 - Udacity 强化学习 Part Three

四、动态规划1.在动态规划设置中，智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。（这比强化学习设置简单多了，在强化学习设置中，智能体一开始不知道环境如何决定状态和奖励，必须完全通过互动学习如何选择动作。） 2.迭代方法求状态值函数迭代方法先对每个状态的值进行初始猜测。尤其是，我们先假设每 ...

分类：其他好文时间：2019-02-13 19:31:50 阅读次数：173

强化学习概念

1.经验（观察observation，激励reward，行动action） 2.状态（state） 3. ...

分类：其他好文时间：2019-02-04 19:39:02 阅读次数：180

强化学习(十五) A3C

在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C ...

分类：其他好文时间：2019-01-29 20:35:41 阅读次数：2719

动态规划中策略迭代和值迭代的一个小例子

强化学习中动态规划是已知状态转移概率和奖励值的一种情况，这种情况下我们一般可以采取策略迭代和值迭代的方式来进行求解，下面给出一个具体的小例子。 ...

分类：其他好文时间：2019-01-24 14:31:52 阅读次数：568

爬格子问题（经典强化学习问题） Sarsa 与 Q-Learning 的区别

SARSA v.s. Q-learning 爬格子问题，是典型的经典强化学习问题。 ...

分类：其他好文时间：2019-01-24 11:01:09 阅读次数：133

24分钟让AI跑起飞车类游戏

WeTest 导读本文主要介绍如何让AI在24分钟内学会玩飞车类游戏。我们使用Distributed PPO训练AI，在短时间内可以取得不错的训练效果。本方法的特点： 1. 纯游戏图像作为输入 2. 不使用游戏内部接口 3. 可靠的强化学习方法 4. 简单易行的并行训练 1. PPO简介 PPO ...

分类：其他好文时间：2019-01-22 14:24:05 阅读次数：223

百度正式发布PaddlePaddle深度强化学习框架PARL

去年，斯坦福大学神经生物实验室与 EPFL 联合举办了一场强化学习赛事——人工智能假肢挑战赛（AI for Prosthetics Challenge），希望将强化学习应用到人体腿部骨骼仿真模拟模型的训练。经过激烈的角逐，最终来自百度大脑的 NLP 技术团队一举击败众多强劲对手，以9980分的成绩 ...

分类：其他好文时间：2019-01-21 17:52:44 阅读次数：229

01机器学习应用及理论分类

机器学习的两大基本问题：回归问题与分类问题。什么是机器学习：根据已知的数据学习出一个数学函数使其能够有更强的预测能力。学习路线：传统学习-深度学习-强化学习 ...

分类：其他好文时间：2019-01-15 14:34:30 阅读次数：202

强化学习---TRPO/DPPO/PPO/PPO2

时间线： OpenAI 发表的 Trust Region Policy Optimization, Google DeepMind 看过 OpenAI 关于 TRPO后, 2017年7月7号，抢在 OpenAI 前面把 Distributed PPO给先发布了. OpenAI 还是在 2017年7 ...

分类：其他好文时间：2019-01-11 23:23:59 阅读次数：776

共328条上一页 1 ... 13 14 15 16 17 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)