train_data是训练特征数据, train_label是分类标签。Predict_label是预测的标签。MatLab训练数据, 得到语义标签向量 Scores(概率输出)。1.逻辑回归(多项式MultiNomial logistic Regression)Factor = mnrfit(tr...
分类:
其他好文 时间:
2014-11-13 20:41:50
阅读次数:
211
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
编程语言 时间:
2014-11-08 14:58:18
阅读次数:
236
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
编程语言 时间:
2014-11-06 12:23:39
阅读次数:
211
参考了许多资料加上个人理解,对十大算法进行如下分类:
?分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM
?聚类算法:KMeans
?统计学习:EM
?关联分析:Apriori
?链接挖掘:PageRank...
分类:
编程语言 时间:
2014-11-03 11:32:18
阅读次数:
241
k近邻(k-NearestNeighbor,KNN)算法,应该是机器学习里最基础的算法,其核心思想是:给定一个未知分类的样本,如果与它最相似的k个已知样本中的多数属于某一个分类,那么这个未知样本也属于这个分类。所谓相似,是指两个样本之间的欧氏距离小,其计算公式为:k近邻算法的优点..
分类:
编程语言 时间:
2014-10-30 15:30:23
阅读次数:
231
本内容 来自微信公众平台:机器学习之窗 以及 http://www.cnblogs.com/kaituorensheng/p/3579347.html在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是将在特征空间中最接近的训练样本进行分类的方法。最近邻居法采用向量空间模型来分类,概念.....
分类:
编程语言 时间:
2014-10-29 18:58:24
阅读次数:
387
KNN--k-NearestNeighbor可以是是分类法中最简单的算法了。大致的idea为:找出k各跟新数据点最像的点,看这些点主要属于哪类,那么新数据点也就属于哪类的了。其伪代码如下:1. 拿到一个新的数据点2. 计算其到training set中每个点的距离3. 对距离排序4. 对距离新数据点...
分类:
其他好文 时间:
2014-10-28 17:31:56
阅读次数:
165
还是同前一篇作为学习入门。1. KNN算法描述:step1: 文本向量化表示,计算特征词的TF-IDF值step2: 新文本到达后,根据特征词确定文本的向量step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20ste...
分类:
编程语言 时间:
2014-10-23 12:14:28
阅读次数:
403
K~近邻算法是最简单的机器学习算法。工作原理就是:将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似的数据的分类标签。一般来说,只提取样本数据集中前K个最相似的数据。通常K不大于20,最后选择K个最相似数据中出现次数最多的分类,最为新的数据分类。
但是K~近邻算法必须保存全部的数据集,如果训练数据集很大,必须使用打量的存储空间。此外,由于必须对数据集中每个...
分类:
编程语言 时间:
2014-10-22 18:24:18
阅读次数:
192
例子:某人想要由以下1000行训练样本数据构建一个分类器,将数据分成3类(喜欢,一般,不喜欢)。样本数据的特征有主要有3个,A:每年获得的飞行常客里程数B:玩视频游戏所耗时间百分比C:每周消费冰淇淋公升数1. 数据的读取 1 filename='D://machine_learn//Ch02//da...
分类:
编程语言 时间:
2014-10-11 15:32:15
阅读次数:
398