参考:http://scikit-learn.org/stable/modules/svm.html
在实际项目中,我们真的很少用到那些简单的模型,比如LR、kNN、NB等,虽然经典,但在工程中确实不实用。
今天我们关注在工程中用的相对较多的SVM。
SVM功能不少:Support vector machines (SVMs) are a se...
分类:
系统相关 时间:
2015-08-04 08:13:35
阅读次数:
358
软件版本:Hadoop2.6,MyEclipse10.0 , Maven 3.3.2源码下载地址:https://github.com/fansy1990/knn 。1. KNN算法思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本...
分类:
编程语言 时间:
2015-07-28 13:07:39
阅读次数:
220
1,线性判别分析(Linear Discriminant Analysis)(一)2,机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)3,Machine Learning in Action – PCA和SVD
分类:
其他好文 时间:
2015-07-28 12:31:21
阅读次数:
122
参考:http://scikit-learn.org/stable/modules/unsupervised_reduction.html
对于高维features,常常需要在supervised之前unsupervised dimensionality reduction。
下面三节的翻译会在之后附上。
4.4.1. PCA: principal compo...
分类:
其他好文 时间:
2015-07-26 12:47:59
阅读次数:
149
《Aggregating local descriptors into a compact image representation》论文笔记
在论文中,提取到VLAD特征后,要对特征向量进行PCA降维,就是用一个大小为D’ * D的矩阵M,对VLAD特征向量x做变换,降维后的vector是x’ = Mx,x’的大小是D’维。矩阵M是由原样本的协方差矩阵的D’个特征向量构成。
为什么M要是特征...
分类:
其他好文 时间:
2015-07-25 23:02:41
阅读次数:
220
关于这部分主要是想在python下试验一下主成分分析(PCA)算法以及简单的人脸识别。曾经详述过matlab下的PCA以及SVM算法进行人脸识别技术,参考如下:主成分分析法-简单人脸识别(一)主成分分析-简单人脸识别(二)PCA实验人脸库-人脸识别(四)PCA+支持向量机-人脸识别(五)主成分分析(PCA)算法主要是对高维数据进行降维,最大限度的找到数据间的相互关系,在机器学习、数据挖掘上很有用。在...
分类:
编程语言 时间:
2015-07-25 20:00:11
阅读次数:
147
从今天开始,与大家分享我学习《Machine Learning In Action》这本书的笔记与心得。我会将源码加以详细的注释,这是我自己学习的一个过程,也是想通过这种方式帮助需要学习的童鞋的一种方式。k-近邻算法定义k-近邻(k-Nearest Neighbour,kNN)算法采用测量不同特征值之间的距离的方法进行分类。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的...
分类:
编程语言 时间:
2015-07-25 18:26:35
阅读次数:
288
《Aggregating local descriptors into a compact image representation》论文笔记提取到VLAD特征后,要先用PCA降维,然后再用ADC方法对每一幅图像建立索引,这里先介绍ADC方法。ADC方法是对图片库中,除query vector x之外的所有图的vector Y=y1,y2...ynY={y_1,y_2...y_n},做kmeans产...
分类:
其他好文 时间:
2015-07-25 12:23:20
阅读次数:
173
PCAPCA全称为Principal Components Analysis,即主成分分析,是一种常用的降维方法。PCA将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来的全部指标。将n维特征映射到k维全新的正交特征上。PCA的实现一般有两种:特征值分解和SVD.原理对原始...
分类:
其他好文 时间:
2015-07-25 12:04:44
阅读次数:
202
knn算法是最近邻算法。直观的理解上,非常容易。为啥?就是在一批已知标签的训练集上,把一个测试集扔进去,根据与训练集的距离大小排列。距离最小的k个挑选出来,查看他们的标签类别。最多那个类别被视为该测试集的类。 怎么理解?假如要判断你喜欢什么运动。我先从和你走得最近的10个朋友入手。假如这10...
分类:
编程语言 时间:
2015-07-23 23:30:52
阅读次数:
176