本科论文做的是人脸识别,对一些算法进行复习。。。概念PCA (主成分分析算法)主要用于减少数据集的维数,同时保持数据集中方差最大的贡献。(我的理解是,图像处理时,数据量太大,通常需要降低数据维数,但是又希望保留贡献大的特征数据,PCA就是保留主要成分的降维算法)。人脸识别中,利用PCA算法构建特征脸...
分类:
其他好文 时间:
2015-04-17 09:36:56
阅读次数:
705
PCA 算法也叫主成分分析(principal components analysis),主要是用于数据降维的。为什么要进行数据降维?因为实际情况中我们的训练数据会存在特征过多或者是特征累赘的问题,比如:
一个关于汽车的样本数据,一个特征是”km/h的最大速度特征“,另一个是”英里每小时“的最大速度特征,很显然这两个特征具有很强的相关性
拿到一个样本,特征非常多,样本缺很少,这样的数据用回归去你和将...
分类:
编程语言 时间:
2015-04-15 23:27:39
阅读次数:
303
介绍机器学习KNN算法,提供Matlab,Python实现以及实际应用例子...
分类:
编程语言 时间:
2015-04-14 14:41:04
阅读次数:
629
主要是参考了文章
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html
http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.html
http://www.cnblogs.com/jerrylea...
分类:
编程语言 时间:
2015-04-13 16:48:44
阅读次数:
398
简述算法上一章的kNN更像是应用统计知识来进行科学的预测,它可以完成许多分类任务。但是最大的缺点就是无法给出数据的内在含义,而决策树算法数据形式非常便于理解。决策树的结果经常会应用到专家系统当中。构建一棵决策树的流程:检测数据集中每一个子祥的属性是否属于同一类
if so return 类标签;
else
寻找划分数据集的最好特征
划分数据集...
分类:
其他好文 时间:
2015-04-13 09:47:03
阅读次数:
197
这段时间工作太忙,很久没学习了。这两天,工作之余,偶尔在家翻翻书,权且当做休息了。
我一直是c/c++的忠实用户,尤其是c的粉丝——概念简洁、运行高效——计算机专业的人,不用c语言,不了解程序底层的运行机制和过程,那和那些外专业的只会调用接口、函数的同学有什么区别呢?不过,最近一年还是慢慢去了解、尝试python了。原因很简单,开发成本太低了。c/c++就像复杂的吸尘器、洗碗机,优点是高效,缺点...
分类:
编程语言 时间:
2015-04-11 13:21:57
阅读次数:
197
KNN的是“k Nearest Neighbors”的简称,中文就是“最近邻分类器”。基本思路就是,对于未知样本,计算该样本和训练集合中每一个样本之间的距离,选择距离最近的k个样本,用这k个样本所对应的类别结果进行投票,最终多数票的类别就是该未知样本的分类结果。选择什么样的度量来衡量样本之间的距离是关键。
一、从文本中读取样本的特征和分类结果。
'''
kNN: k Nearest N...
分类:
编程语言 时间:
2015-04-11 13:19:10
阅读次数:
214
样本我就用的《machine learning in action》中提供的数据样例,据说是婚恋网站上各个候选人的特征,以及当前人对这些人的喜欢程度。一共1k条数据,前900条作为训练样本,后100条作为测试样本。
数据格式如下:
46893 3.562976 0.445386 didntLike
8178 3.230482 1.331698 smallDoses
55783 3.612548...
分类:
编程语言 时间:
2015-04-11 13:17:24
阅读次数:
159
继续之前的写。
三、对单个样本进行分类。
'''
function: classify the input sample by voting from its K nearest neighbor
input:
1. the input feature vector
2. the feature matrix
3. the label list
4. the value of k
re...
分类:
编程语言 时间:
2015-04-11 13:17:22
阅读次数:
237
概述K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。算法总结k-邻近算法是分类...
分类:
其他好文 时间:
2015-04-11 01:11:04
阅读次数:
209