本实验的目的是学习Parzen窗估计和k最近邻估计方法。在之前的模式识别研究中,我们假设概率密度函数的参数形式已知,即判别函数J(.)的参数是已知的。本节使用非参数化的方法来处理任意形式的概率分布而不必事先考虑概率密度的参数形式。在模式识别中有躲在令人感兴趣的非参数化方法,Parzen窗估计和k最近邻估计就是两种经典的估计法。这里使用Matlab实现这两种估计方法。...
分类:
其他好文 时间:
2015-04-25 22:54:04
阅读次数:
1933
留学韩国,本来想继续在研究生这条路上一直走到黑的,奈何时间不够,口袋里面的银子总是不够用,
研究的东西也是浅尝辄止,
没办法匆匆写了篇论文交了就毕业了,一声长叹,想想求学二十余载,总是感觉什么都不够用,尤其是脑子,
有时甚至忘了带上
研究室生活也是张弛无度
决定出去工作了,但是在此之前简单的把研究的内容整理下,
权当是抛砖引玉,忘别见此笑话,
以后的内容会偏及数据防护DLP
领域<...
分类:
其他好文 时间:
2015-04-25 00:17:47
阅读次数:
195
特征集分析
数据集为letter-recognition.data,一共为20000条数据,以逗号分隔,数据实例如下所示,第一列为字母标记,剩下的为不同的特征。
T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
学习方法
1、读入数据,并去除分隔号2、将数据第一列作为标记,剩下的为训练数据3、初始化分类器并利用训练数据进行训练4、利用测试数据验证准确率...
分类:
编程语言 时间:
2015-04-20 15:01:11
阅读次数:
427
摘要: 本文主要是评估多种监督机器学习算法的有效性,这些算法用于判断一个错误报告是否是reopened的,算法如下: 7种监督学习算法:kNN,SVM, SimpleLogistic,Bayesian Network, Decision Table, CARTand LWL; 3种集成学习算法: A...
分类:
其他好文 时间:
2015-04-20 10:58:45
阅读次数:
160
最近在猛撸这本课,统计部分涉及的第一个分析数据的方法便是PCA!因此,今天打算好好梳理一下,涉及主城分析法的理论以及R实现!come on…gogogo… 首先说一个题外话,记得TED上有一期,一个叫Simon Sinek的年轻人提出了一个全新的Why-How-What黄金圈理论(三个同心圆,最里面...
分类:
其他好文 时间:
2015-04-20 01:46:39
阅读次数:
258
本实验的目的是学习和掌握PCA主分量分析方法和Fisher线性判别方法。首先了解PCA主分量分析方法的基本概念,理解利用PCA 分析可以对数据集合在特征空间进行平移和旋转。实验的第二部分是学习和掌握Fisher线性判别方法。了解Fisher线性判别方法找的最优方向与非最优方向的差异,将高维分布的数据进行降维,并通过Fisher线性判别方法实现高维数据在一维中分类。...
分类:
其他好文 时间:
2015-04-19 08:53:40
阅读次数:
348
这两种方法都是KL变换的一种形式吧,PCA主要是把高位数据投影到k个低维的正交坐标轴上,来实现尽量保留原始信息 LDA主要是类内与类外的散列程度,该方法投影后的坐标轴不一定正交(因为scatter矩阵不一定是对角的) 两种方法都会转化为求解矩阵特征值特征向量,而且是选择最大的K个特征值对应的...
分类:
其他好文 时间:
2015-04-18 19:03:09
阅读次数:
858
一、改进约会网站的配对效果
想要预测的目标变量:不喜欢的人、魅力一般的人、极具魅力的人
样本特征:每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数
约会数据信息存放在文本文件datingTestSet.txt中,每个样本数据占据一行,共有1000行。
实现步骤
1、将文本文件中的数据进行解析
##########...
分类:
编程语言 时间:
2015-04-17 14:04:25
阅读次数:
239
注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新:2013-3-17一、特征提取Feature Extraction:·SIFT [1] [Demo program][SIFT Library] [VLFeat]·PCA-...
分类:
其他好文 时间:
2015-04-17 13:28:24
阅读次数:
229
一、基本原理
存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
二、算法流程...
分类:
编程语言 时间:
2015-04-17 11:44:08
阅读次数:
162