KNN分类器

时间：2015-07-07 13:07:06 阅读：1684 评论：0 收藏：0 [点我收藏+]

KNN学习（K-Nearest Neighbor algorithm，K最邻近方法）是一种统计分类器，对数据的特征变量的筛选尤其有效。

基本原理

KNN的基本思想是：输入没有标签（标注数据的类别），即没有经过分类的新数据，首先提取新数据的特征并与测试集中的每一个数据特征进行比较；然后从测试集中提取K个最邻近（最相似）的数据特征标签，统计这K个最邻近数据中出现次数最多的分类，将其作为新的数据类别。
KNN的这种基本思想有点类似于生活中的“物以类聚，人以群分”。
在KNN学习中，首先计算待分类数据特征与训练数据特征之间的距离并排序，取出距离最近的K个训练数据特征；然后根据这K个相近训练数据特征所属类别来判定新样本类别：如果它们都属于一类，那么新的样本也属于这个类；否则，对每个候选类别进行评分，按照某种规则确定新的样本的类别。笔者借用下面这个图来做更形象的解释：
技术分享
如上图，图中最小的那个圆圈代表新的待分类数据，三角形和矩形分别代表已知的类型，现在需要判断圆圈属于菱形那一类还是矩形那一类。但是我该以什么样的依据来判断呢？

看离圆形最近（K=1）的那个类型是什么，由图可知，离圆形最近的是三角形，故将新数据判定为属于三角形这个类别。
看离圆形最近的3个数据（K=3）的类型是什么，由图可知离圆形最近的三个中间有两个是矩形，一个是三角形，故将新数据判定为属于矩形这个类别。
看离圆形最近的9个数据（K=9）的类型是什么，由图可知离圆形最近的9个数据中间，有五个是三角形，四个是矩形，故新数据判定为属于三角形这个类别。

上面所说的三种情况也可以说成是1-近邻方法、3-近邻方法、9-近邻方法。。。当然，K还可以取更大的值，当样本足够多，且样本类别的分布足够好的话，那么K值越大，划分的类别就越正确。而KNN中的K表示的就是划分数据时，所取相似样本的个数。
我们都知道，当K=1时，其抗干扰能力就较差，因为假如样本中出现了某种偶然的类别，那么新的数据很有可能被分错。为了增加分类的可靠性，可以考察待测数据的K个最近邻样本，统计这K个近邻样本中属于哪一类别的样本最多，就将样本X判属于该类。
当然，如果在样本有限的情况下，KNN算法的误判概率和距离的具体测度方法就有了直接关系。即用何种方式判定哪些数据与新数据近邻。不同的样本选择不同的距离测量函数，这能够提高分类的正确率。通常情况下，KNN可以采用Euclidean（欧几里得）、Manhattan（曼哈顿）、Mahalanobis（马氏距离）等距离用于计算。

Euclidean距离为： $d (x ?, y ?) = [\sum i = 1 n (x i ? y i) 2]$ $d(\vec{x},\vec{y})=\left[\sum_{i=1}^n\left(x_i-y_i\right)^2\right]$ $x ? = (x 1, x 2, . . ., x n)$ $\vec{x}=(x_1,x_2,...,x_n)$ $y ? = (y 1, y 2, . . ., y n)$ $\vec{y}=(y_1,y_2,...,y_n)$
Manhattan距离为： $d (x ?, y ?) = \sum i = 1 n | x i ? y i |$ $d(\vec{x},\vec{y})=\sum_{i=1}^n|x_i-y_i|$
Mahalanobis距离为： $d (x ?, y ?) = (x ? ? y ?)' V ? 1 (x ? ? y ?)$ $d(\vec{x},\vec{y})=(\vec{x}-\vec{y})‘V^{-1}(\vec{x}-\vec{y})$ 其中n为特征的维数， $V$ 为 $\vec{x}$ 和 $\vec{y}$ 所在的数据集的协方差函数。

下面给出KNN学习的伪代码：

Algorithm  KNN(A[n],k,x)
    Input:
        A[n]为N个训练样本的特征，K为近邻数，x为新的样本；
    Initialize:
        取A[1]~A[k]作为x的初始近邻；
        计算测试样本与x间的欧式距离d(x,A[i]),i=1,2...,k;
        按d(x,A[i])升序排序；
        计算最远样本与x间距离D，即max{d(x,A[i])}；
    for(i=k+1;i<=n;i++)
        计算A[i]与x之间的距离d(x,A[i])；
        if （d(x,A[i])）<D  then  用A[i]代替最远样本；
        按照d(x,A[i])升序排序；
        计算最远样本与x间的距离D，即max{d(x,A[i])}；
    End for
    计算前K个样本A[i],i=1,2...,k所属类别的概率；
    具有最大概率的类别即为样本x的类；
    Output:x所属的类别。

KNN的不足

1、加入某些类别的样本容量很大，而其他类样本容量很小，即已知的样本数量不均衡，有可能当输入一个和小容量类相同的的新样本时，该样本的K个近邻中，大容量类的样本占多数，从而导致误分类。
针对此种情况可以采用加权的方法，即和该样本距离小的近邻所对应的权值越大，将权值纳入分类的参考依据。
2、分类时需要先计算待分类样本和全体已知样本的距离，才能求得所需的K近邻点，计算量较大，尤其是样本数量较多时。
针对这种情况可以事先对已知样本点进行剪辑，去除对分类作用不大的样本，这一处理步骤仅适用于样本容量较大的情况，如果在原始样本数量较少时采用这种处理，反而会增加误分类的概率。

改进的KNN算法

KNN学习容易受噪声影响，尤其是样本中的孤立点对分类或回归处理有很大的影响。因此通常也对已知样本进行滤波和筛选，去除对分类有干扰的样本。

K值得选取也会影响分类结果，因此需根据每类样本的数目和分散程度选取合理的K值，并且对不同的应用也要考虑K值得选择。

基于组合分类器的KNN改进算法

常用的组合分类器方法有投票法、非投票法、动态法和静态法等，比如简单的投票法中所有的基分类器对分类采取相同的权值；权值投票法中每个基分类器具有相关的动态权重，该权重可以随时间变化。

首先随机选择属性子集，构建多个K近邻分类器；然后对未分类元组进行分类；最后把分类器的分类结果按照投票法进行组合，将得票最多的分类器作为最终组合近邻分类器的输出。

基于核映射的KNN改进算法

将原空间 $R^n$ 中的样本 $x$ 映射到一个高维的核空间F中，突出不同类别样本之间的特征差异出，使得样本在核空间中变得线性可分或者近似线性可分，其流程如下所示：
首先进行非线性映射：

Φ : R n \to F, x \to Φ (x)

$\Phi:R^n\rightarrow F,x\rightarrow\Phi(x)$ 然后在高维的核空间，待分类的样本变为

(Φ(x1),...,Φ(xn)) $\left(\Phi(x_1),...,\Phi(x_n)\right)$ ，任意两个样本

Φ(xi) $\Phi(x_i)$ ，

Φ(xj) $\Phi(x_j)$ 之间的距离为：

∥ Φ (x i) ? Φ (x j) ∥ 2 = K (x i, x i) + K (x j, x j)

$\|\Phi(x_i)-\Phi(x_j)\|^2=K(x_i,x_i)+K(x_j,x_j)$ 其中

K(?,?) $K(*,*)$ 为核函数，在此基础上进行KNN分类。

KNN分类器

标签：knn 分类器

原文地址：http://blog.csdn.net/autocyz/article/details/46786469

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行