码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
的机器学习开源工具分享
本文将重点介绍五种机器学习的工具——面向非程序员的工具(Ludwig、Orange、KNIME)、模型部署(CoreML、Tensorflow.js)、大数据(Hadoop、Spark)、计算机视觉(SimpleCV)、NLP(StanfordNLP)、音频和强化学习(OpenAI Gym)。 ...
分类:其他好文   时间:2019-08-05 17:23:26    阅读次数:114
TensorFlow 2 / 2.0 入门教程实战案例
中文文档 "TensorFlow 2 / 2.0 中文文档" 知乎专栏 欢迎关注知乎专栏 "https://zhuanlan.zhihu.com/geektutu" 一、实战教程之强化学习 "TensorFlow 2.0 (九) 强化学习 70行代码实战 Policy Gradient" "Tens ...
分类:其他好文   时间:2019-07-09 13:40:22    阅读次数:116
强化学习之MDP
前言 最近又入坑RL了,要搞AutoML就要学会RL,真的是心累。。 正文 MDP里面比较重要的就是状态值函数和动作-状态值函数吧,然后再求最优状态值函数和最优动作状态值函数,状态值函数的公式推导一开始不懂,卡在了一个地方,现在记下来, 很关键的一个在于“和的期望等于期望的和” ...
分类:其他好文   时间:2019-06-26 20:44:39    阅读次数:174
对比学习:《深度学习之Pytorch》《PyTorch深度学习实战》+代码
PyTorch是一个基于Python的深度学习平台,该平台简单易用上手快,从计算机视觉、自然语言处理再到强化学习,PyTorch的功能强大,支持PyTorch的工具包有用于自然语言处理的Allen NLP,用于概率图模型的Pyro,扩展了PyTorch的功能。通过学习《深度学习入门之PyTorch》 ...
分类:其他好文   时间:2019-06-04 19:42:29    阅读次数:174
强化学习_PolicyGradient(策略梯度)_代码解析
使用策略梯度解决离散action space问题。 一、导入包,定义hyper parameter 二、PolicyGradient Agent的构造函数: 1、设置问题的状态空间维度,动作空间维度; 2、序列采样的存储结构; 3、调用创建用于策略函数近似的神经网络的函数,tensorflow的se ...
分类:其他好文   时间:2019-05-26 18:04:54    阅读次数:137
论文:利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)
这是一篇被ICLR 2019 接收的论文。论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects)。举例来说,在「厨房」这一场景中,有一张图片显示「苹果」在冰箱的储物架上,同为水果的物体,如「橙子」,会出现 ...
分类:其他好文   时间:2019-05-21 14:33:39    阅读次数:136
莫烦Python之机器学习概念了解
1、机器学习分类 有监督学习 无监督学习 半监督学习 强化学习 遗传算法 2、神经网络 一种基于传统统计学的模型,由大量的神经元与其关系构成。常用来对复杂的输入和输出关系进行建模 误差反向传递:给出信号,得到经过神经网络算法之后的结果(信号正向传播),再根据结果来修改神经网络中的神经元强度(信号反向 ...
分类:编程语言   时间:2019-05-15 22:54:31    阅读次数:234
如何让强化学习走进现实世界?
火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢? ...
分类:其他好文   时间:2019-05-15 16:35:13    阅读次数:141
复现一篇深度强化学习论文之前请先看了这篇文章!
去年,OpenAI和DeepMind联手做了当时最酷的实验,不用经典的奖励信号来训练智能体,而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences,原始论文是《 Deep Reinforcement Learning from ...
分类:其他好文   时间:2019-05-14 09:45:05    阅读次数:133
总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy
前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目 ...
分类:其他好文   时间:2019-05-13 14:29:47    阅读次数:157
328条   上一页 1 ... 11 12 13 14 15 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!