blog翻译。原blog:https://keon.github.io/deep-q-learning/ 强化学习 强化学习是一种允许你创造能从环境中交互学习的AI agent 的机器学习算法。就跟我们学习骑自行车一样,这种类型的AI通过试错来学习。如上图所示,大脑代表AI agent并在环境中活动 ...
分类:
其他好文 时间:
2020-06-26 01:13:31
阅读次数:
156
强化学习是近些年最火,最接近“真实情况”的深度学习方式。对比其他学习注重的是决策问题,通过智能体与周边环境的交互学会了如何能获得更多的奖励。 百度的paddle团队开源了强化学习PARL项目,该项目有几大特性: 在实际任务中尝试使用强化学习解决问题 快速调研下不同强化学习算法在同一个问题上的效果 搭 ...
分类:
其他好文 时间:
2020-06-25 11:57:15
阅读次数:
111
强化学习 Reinforce Learning 强化学习区别于机器学习的一点是,强化学习是来做决策的。根据环境的反馈,做出决策。 外界环境情况复杂,和环境的交互主要有 环境的状态 stat、智能体的动作、和对动作带来收益的评价 reward。 这里面涉及2个对象,agent 和 env。 agent ...
分类:
其他好文 时间:
2020-06-24 19:49:13
阅读次数:
65
作者|Jacob Gursky 编译|VK 来源|Towards Data Science 介绍 如果我告诉你训练神经网络不需要计算梯度,只需要前项传播你会怎么样?这就是神经进化的魔力!同时,我要展示的是,所有这一切只用Numpy都可以很容易地做到!学习统计学你会学到很多关于基于梯度的方法,但是不久 ...
分类:
其他好文 时间:
2020-06-21 16:19:59
阅读次数:
61
1、安装TORCS的win版本 下载地址:https://sourceforge.net/projects/torcs/files/all-in-one/ 注意:安装一切默认即可,记住好安装目录,过会要用 2、下载安装接口 patch地址:https://sourceforge.net/projec ...
非显著式编程的做法 收益函数 1998 Tom MitShell 第一本成熟的教科书:MACHINE LEARNING 典型的最优化问题 为数据打标签(独特行业) 监督学习 强化学习(与环境互动) 非监督学习 需要假设:同一类的训练数据在空间中距离更近->样本的空间信息->设计算法将其分成两类 非监 ...
分类:
其他好文 时间:
2020-06-17 10:44:59
阅读次数:
69
一、定义问题,收集数据集 首先要清楚面对问题的输入数据是什么?要预测什么? 收集这些数据,有需要的话用标签来标注数据。 其次要清楚面对的是什么类型的问题?是二分类问题、多分类问题、标量回归问题、向量回归问题,还是多分类、多标签问题?或者是其他问题,比如聚类、生成或强化学习?确定问题类型有助于你选择模 ...
分类:
其他好文 时间:
2020-06-15 12:16:26
阅读次数:
47
强化学习 马尔科夫决策过程(MDP) 一、马尔科夫过程(Markov Process) 马尔科夫性某一状态信息包含了所有相关的历史,只要当前状态可知,所有的历史信息都不再需要,当前状态就可以决定未来,则认为该状态具有马尔科夫性 \[ P(S_{t+1}|S_t) = p(S_{t+1}|S_1, S ...
分类:
其他好文 时间:
2020-06-06 16:59:34
阅读次数:
219
https://www.bilibili.com/video/BV1T4411X72r?p=3 autoML NAS https://a-suozhang.xyz/2020/03/08/NAS/ BN:https://zhuanlan.zhihu.com/p/33173246 https://spa ...
分类:
其他好文 时间:
2020-06-01 09:11:39
阅读次数:
273