印象笔记同步分享:Machine Learning—分类和聚类,监督学习和非监督学习...
分类:
其他好文 时间:
2014-09-14 01:24:16
阅读次数:
193
Apriori算法也属于无监督学习,它强调的是“从数据X中能够发现什么”。从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题。因此此处介绍使用Apriorio算法来解决上述问题。
1:简单概念描述
(1) 频繁项集:指经常出现在一块的物品的...
分类:
其他好文 时间:
2014-09-09 20:11:19
阅读次数:
313
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。
1:kmeans算法
Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:
其他好文 时间:
2014-09-09 16:17:19
阅读次数:
234
Distant Supervision for relation extraction without labeled data远程监督:使用未标注语料做关系抽取1.背景: 关系抽取(某个人是否属于某个组织等) 关系抽取中使用的3种方法: a)监督学习 优点:准确率很高 缺点:1....
分类:
其他好文 时间:
2014-09-04 22:16:10
阅读次数:
856
”凸优化“ 是指一种比较特殊的优化,是指目标函数为凸函数且由约束条件得到的定义域为凸集的优化问题,也就是说目标函数和约束条件都是”凸”的。稀疏编码算法是一种无监督学习方法,它用来寻找一组“超完备”基向量来更高效地表示样本数据。稀疏编码算法的目的就是找到一组基向量 ,使得我们能将输入向量 表示为这.....
分类:
其他好文 时间:
2014-08-31 10:29:41
阅读次数:
436
有了前面的准备,可以用Theano实现一个逻辑回归程序,逻辑回归是典型的有监督学习。
为了形象,这里我们假设分类任务是区分人与狗的照片。
首先是生成随机数对象
importnumpy
importtheano
importtheano.tensor as T
rng= numpy.random
数据初始化
有400张照片,这些照片不是人的就是狗的。
每张照片是28*28=78...
分类:
其他好文 时间:
2014-08-28 22:46:06
阅读次数:
360
一、Sparse Coding稀疏编码稀疏编码算法是一种无监督学习方法,它用来寻找一组“超完备”基向量来更高效地表示样本数据。稀疏编码算法的目的就是找到一组基向量 ,使得我们能将输入向量 表示为这些基向量的线性组合:也就是虽然形如主成分分析技术(PCA)能使我们方便地找到一组“完备”基向量,但是.....
分类:
其他好文 时间:
2014-08-27 14:21:27
阅读次数:
850
机器学习就是把无序的数据转换成有用的信息。
机器学习的主要任务就是分类,通过通过训练数据训练算法,最终可以将实际的数据分到合适的类别中
监督学习算法:预测目标变量的值
k-means算法,线性回归
朴素贝叶斯算法,局部加权线性回归
支持向量机,ridge回归
决策树,lasso最小回归系数估计
无监督学习算法:不需要预测目标变量的值
k-均值,最大期望算法
DBS...
分类:
其他好文 时间:
2014-08-22 14:28:59
阅读次数:
340
Linear Regreesion 线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可。 Cost Function的...
分类:
其他好文 时间:
2014-08-21 22:34:24
阅读次数:
349
监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测,计算机的基本操作就是给定一个输入产生一个输出。基本概念:输入空间、特征空间与输出空间 在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input sp.....
分类:
其他好文 时间:
2014-08-14 01:05:47
阅读次数:
421