【学习笔记】K近邻归类算法

时间：2016-10-24 17:54:43 阅读：160 评论：0 收藏：0 [点我收藏+]

# -*- coding:utf-8 -*-
__author__ = ‘Ghostviper‘
"""
K近邻归类算法
"""
from numpy import *
import operator
def createDataset():
    group = array([
        [1.0, 1.1],
        [1.0, 1.0],
        [0, 0],
        [0, 0.1]
    ])
    labels = [‘A‘, ‘A‘, ‘B‘, ‘B‘]
    return group, labels
def classify0(inX, dataSet, labels, k):
    # shape获得数据集中数组的大小
    dataSetSize = dataSet.shape[0]
    # 根据输入的元素复制矩阵并与已知数据集矩阵做差
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]
if __name__ == "__main__":
    group, labels = createDataset()
    print classify0([1, 1], group, labels, 3)

注:计算两个向量点xA和xB之间的距离利用欧式距离公式:

算法步骤:

计算已知类别数据集中点与当前点之间的距离
按照距离递增排序
选取与当前点距离最小的k个点
确定前k个点所在类别的出现频率
返回前k个点出现的频率最高的类别作为当前点的预测分类

算法适用范围:数值型和标称型

优点:精度高、对异常值不敏感、无数据输入假定

缺点：计算复杂度高、空间复杂度高

本文出自 “ghostviper” 博客，请务必保留此出处http://ghostviper.blog.51cto.com/3396458/1865001

【学习笔记】K近邻归类算法

标签：k近邻算法聚类

原文地址：http://ghostviper.blog.51cto.com/3396458/1865001

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行