本文将重点介绍五种机器学习的工具——面向非程序员的工具(Ludwig、Orange、KNIME)、模型部署(CoreML、Tensorflow.js)、大数据(Hadoop、Spark)、计算机视觉(SimpleCV)、NLP(StanfordNLP)、音频和强化学习(OpenAI Gym)。 ...
分类:
其他好文 时间:
2019-08-05 17:23:26
阅读次数:
114
中文文档 "TensorFlow 2 / 2.0 中文文档" 知乎专栏 欢迎关注知乎专栏 "https://zhuanlan.zhihu.com/geektutu" 一、实战教程之强化学习 "TensorFlow 2.0 (九) 强化学习 70行代码实战 Policy Gradient" "Tens ...
分类:
其他好文 时间:
2019-07-09 13:40:22
阅读次数:
116
前言 最近又入坑RL了,要搞AutoML就要学会RL,真的是心累。。 正文 MDP里面比较重要的就是状态值函数和动作-状态值函数吧,然后再求最优状态值函数和最优动作状态值函数,状态值函数的公式推导一开始不懂,卡在了一个地方,现在记下来, 很关键的一个在于“和的期望等于期望的和” ...
分类:
其他好文 时间:
2019-06-26 20:44:39
阅读次数:
174
PyTorch是一个基于Python的深度学习平台,该平台简单易用上手快,从计算机视觉、自然语言处理再到强化学习,PyTorch的功能强大,支持PyTorch的工具包有用于自然语言处理的Allen NLP,用于概率图模型的Pyro,扩展了PyTorch的功能。通过学习《深度学习入门之PyTorch》 ...
分类:
其他好文 时间:
2019-06-04 19:42:29
阅读次数:
174
使用策略梯度解决离散action space问题。 一、导入包,定义hyper parameter 二、PolicyGradient Agent的构造函数: 1、设置问题的状态空间维度,动作空间维度; 2、序列采样的存储结构; 3、调用创建用于策略函数近似的神经网络的函数,tensorflow的se ...
分类:
其他好文 时间:
2019-05-26 18:04:54
阅读次数:
137
这是一篇被ICLR 2019 接收的论文。论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects)。举例来说,在「厨房」这一场景中,有一张图片显示「苹果」在冰箱的储物架上,同为水果的物体,如「橙子」,会出现 ...
分类:
其他好文 时间:
2019-05-21 14:33:39
阅读次数:
136
1、机器学习分类 有监督学习 无监督学习 半监督学习 强化学习 遗传算法 2、神经网络 一种基于传统统计学的模型,由大量的神经元与其关系构成。常用来对复杂的输入和输出关系进行建模 误差反向传递:给出信号,得到经过神经网络算法之后的结果(信号正向传播),再根据结果来修改神经网络中的神经元强度(信号反向 ...
分类:
编程语言 时间:
2019-05-15 22:54:31
阅读次数:
234
火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢? ...
分类:
其他好文 时间:
2019-05-15 16:35:13
阅读次数:
141
去年,OpenAI和DeepMind联手做了当时最酷的实验,不用经典的奖励信号来训练智能体,而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences,原始论文是《 Deep Reinforcement Learning from ...
分类:
其他好文 时间:
2019-05-14 09:45:05
阅读次数:
133
前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目 ...
分类:
其他好文 时间:
2019-05-13 14:29:47
阅读次数:
157