MLiA.第2章.k-近邻算法(kNN)

时间：2014-12-12 13:16:52 阅读：183 评论：0 收藏：0 [点我收藏+]

简单地说，k-近邻算法是采用测量不同特征值之间的距离方法进行分类。

优缺点：

例子：

算法伪代码：

对未知类别属性的数据集中的每个点依次执行以下操作：

算法实现细节:

其它知识：

一：从文本文件中解析数据.4列数据(最后一列是标签)

def file2matrix(filename):

fr = open(filename)

numberOfLines = len(fr.readlines())

returnMat = zeros((numberOfLines,3))

classLabelVector = []

fr = open(filename)

index = 0

for line in fr.readlines():

line = line.strip()

listFromLine = line.split(‘\t‘)

returnMat[index,:] = listFromLine[0:3]

classLabelVector.append(int(listFromLine[-1]))

index += 1

return returnMat,classLabelVector

二：分析数据：使用Matlotlib创建散点图

三：准备数据：归一化数值

　　newValue = (oldValue - min) / (max - min)

小结：k-邻近存储空间大，计算耗时大；另一个缺陷是它无法给出数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实力样本具有什么特征。

原文地址：http://www.cnblogs.com/cnblogs-learn/p/4159354.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行