搜索关键字：强化学习，搜索到328个结果！码迷,mamicode.com！

的机器学习开源工具分享

本文将重点介绍五种机器学习的工具——面向非程序员的工具（Ludwig、Orange、KNIME）、模型部署（CoreML、Tensorflow.js）、大数据（Hadoop、Spark）、计算机视觉（SimpleCV）、NLP（StanfordNLP）、音频和强化学习（OpenAI Gym）。 ...

分类：其他好文时间：2019-08-05 17:23:26 阅读次数：114

TensorFlow 2 / 2.0 入门教程实战案例

中文文档 "TensorFlow 2 / 2.0 中文文档" 知乎专栏欢迎关注知乎专栏 "https://zhuanlan.zhihu.com/geektutu" 一、实战教程之强化学习 "TensorFlow 2.0 (九) 强化学习 70行代码实战 Policy Gradient" "Tens ...

分类：其他好文时间：2019-07-09 13:40:22 阅读次数：116

强化学习之MDP

前言最近又入坑RL了，要搞AutoML就要学会RL，真的是心累。。正文 MDP里面比较重要的就是状态值函数和动作-状态值函数吧，然后再求最优状态值函数和最优动作状态值函数，状态值函数的公式推导一开始不懂，卡在了一个地方，现在记下来，很关键的一个在于“和的期望等于期望的和” ...

分类：其他好文时间：2019-06-26 20:44:39 阅读次数：174

对比学习:《深度学习之Pytorch》《PyTorch深度学习实战》+代码

PyTorch是一个基于Python的深度学习平台，该平台简单易用上手快，从计算机视觉、自然语言处理再到强化学习，PyTorch的功能强大，支持PyTorch的工具包有用于自然语言处理的Allen NLP，用于概率图模型的Pyro，扩展了PyTorch的功能。通过学习《深度学习入门之PyTorch》 ...

分类：其他好文时间：2019-06-04 19:42:29 阅读次数：174

强化学习_PolicyGradient（策略梯度）_代码解析

使用策略梯度解决离散action space问题。一、导入包，定义hyper parameter 二、PolicyGradient Agent的构造函数： 1、设置问题的状态空间维度，动作空间维度； 2、序列采样的存储结构； 3、调用创建用于策略函数近似的神经网络的函数，tensorflow的se ...

分类：其他好文时间：2019-05-26 18:04:54 阅读次数：137

论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)

这是一篇被ICLR 2019 接收的论文。论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects)。举例来说，在「厨房」这一场景中，有一张图片显示「苹果」在冰箱的储物架上，同为水果的物体，如「橙子」，会出现 ...

分类：其他好文时间：2019-05-21 14:33:39 阅读次数：136

莫烦Python之机器学习概念了解

1、机器学习分类有监督学习无监督学习半监督学习强化学习遗传算法 2、神经网络一种基于传统统计学的模型，由大量的神经元与其关系构成。常用来对复杂的输入和输出关系进行建模误差反向传递：给出信号，得到经过神经网络算法之后的结果（信号正向传播），再根据结果来修改神经网络中的神经元强度（信号反向 ...

分类：编程语言时间：2019-05-15 22:54:31 阅读次数：234

如何让强化学习走进现实世界？

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6，这么强大的算法什么时候才能打破次元壁，走进现实、控制物理世界中的物体呢？ ...

分类：其他好文时间：2019-05-15 16:35:13 阅读次数：141

复现一篇深度强化学习论文之前请先看了这篇文章！

去年，OpenAI和DeepMind联手做了当时最酷的实验，不用经典的奖励信号来训练智能体，而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences，原始论文是《 Deep Reinforcement Learning from ...

分类：其他好文时间：2019-05-14 09:45:05 阅读次数：133

总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

前几天面试的时候被问到RL一些基础算法的区别，回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题，可以采用两个策略训练模型，一个策略为行为策略，用于保持探索性，提供多样化的数据，不断优化另一个策略(目标策略)。 on policy的目 ...

分类：其他好文时间：2019-05-13 14:29:47 阅读次数：157

共328条上一页 1 ... 11 12 13 14 15 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)