码迷,mamicode.com
首页 >  
搜索关键字:强化学习    ( 328个结果
斯坦福公开课1:机器学习的动机与应用
什么是机器学习?一个程序对于任务T,输入经验E,通过性能评测方法P衡量该程序在T的性能得到改进。监督学习Regression(举例:房屋价格与房屋面积的关系)Classification(举例 :根据年龄和肿瘤大小判断乳腺肿瘤是良性/恶性)非监督学习clustering(举例:鸡尾酒会问题)强化学习... ...
分类:其他好文   时间:2017-03-22 00:09:00    阅读次数:139
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作。 在基于深度学习的方法中,想学习一个较好的 r ...
分类:其他好文   时间:2017-02-12 17:33:17    阅读次数:311
Open source packages on Deep Reinforcement Learning
智能车 self driving car + 强化学习 reinforcement learning + 神经网络 模拟 https://github.com/MorvanZhou/my_research/tree/master/self_driving_research_DQN Reinforce ...
分类:其他好文   时间:2016-12-23 09:43:37    阅读次数:207
深度强化学习Deep Reinforcement Learning 学习过程流水账
2016/10/23 这篇文章和那篇三维重建的流水账一样,用来记录一些关键资料来源和发牢骚。 Python怎么学上手快,够用? 神经网络怎么上手? 强化学习怎么上手? 目标驱动,先去看用Python写的强化学习的代码,再去看一些实现各种神经网络的Python代码。再看两种融合的代码。 熟悉工作环境和 ...
分类:其他好文   时间:2016-10-24 01:50:05    阅读次数:186
斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感
课程设置和内容 视频课程分为20集,每集72-85分钟。实体课程大概一周2次,中间还穿插助教上的习题课,大概一个学期的课程。 内容涉及四大部分,分别是:监督学习(2-8集)、学习理论(9集-11集)、无监督学习(12-15集)、强化学习(16-20集)。监督学习和无监督学习,基本上是机器学习的二分法 ...
分类:其他好文   时间:2016-08-27 00:20:36    阅读次数:134
增强学习、增量学习、迁移学习——概念性认知
一、增强学习/强化学习(Reinforcement Learning ) 二、增量学习(Incremental learning) 三、迁移学习(Transfer Learning)...
分类:其他好文   时间:2016-07-19 10:24:47    阅读次数:339
论文笔记之:Continuous Deep Q-Learning with Model-based Acceleration
Continuous Deep Q-Learning with Model-based Acceleration 本文提出了连续动作空间的深度强化学习算法。 开始正文之前,首先要弄清楚两个概念:Model-free 和 Model-based。引用 周志华老师的《机器学习》中的一段话来解释这个概念, ...
分类:其他好文   时间:2016-07-12 21:16:09    阅读次数:1954
Reinforcement Learning
the differences are between the three types of learning(supervised, unsupervised and reinforcement) 监督学习、无监督学习和强化学习的区别 supervised learning sort of tak ...
分类:其他好文   时间:2016-06-17 09:45:24    阅读次数:162
C_C++学习进度
C/C++基础班1个月1.1初识C语言1.2数据类型与运算符1.3流程控制1.4函数1.5指针1.6指针与字符串1.7内存布局1.8结构体和共用体1.9文件操作1.10实战一电子词典1.11实战二跨平台IDEC/C++就业班4.5个月2.1C语言提高C语言基础复习(数据类型、变量、内存布局、指针基础);C语言基础强化..
分类:编程语言   时间:2016-06-16 00:04:58    阅读次数:416
博弈论
为啥a有4个策略而b有3个策略? 看到下面(树->矩阵)这个就了然了: 强化学习的根本目的在于最大化奖励【optimize your long term expected reward(获得更多的奖励)】 MiniMAx 假设所有人都在寻求最优,达到最大化奖励 来吧,再加点不确定性进来~~愉快的玩耍 ...
分类:其他好文   时间:2016-06-05 18:52:25    阅读次数:194
328条   上一页 1 ... 29 30 31 32 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!