李航统计学习方法——算法2——k近邻法

时间：2017-07-30 20:07:30 阅读：247 评论：0 收藏：0 [点我收藏+]

一、K近邻算法

k近邻法（k-nearest neighbor，k-NN）是一种基本分类与回归方法，输入实例的特征向量，输出实例的类别，其中类别可取多类

技术分享

二、k近邻模型

2.1 距离度量

距离定义：技术分享

（1）当p=1,称为曼哈顿距离

（2）当p=2，称为欧式距离

（3）当p取无穷大时，它是各个坐标距离的最大值 max|x_i-x_j|

注意：p值的选择会影响分类结果，例如二维空间的三个点 x1=（1,1），x2=(5,1), x3=(4,4)

由于x1和x2只有第二维上不同，不管p值如何变化，L_p始终等于4，而L₁（x1,x3）=3+3=6，L₂(x1,x3)=(9+9)^1/2=4.24，L₃（x1,x3）=(27+37)^1/3=3.78，L₄=3.57……

当p=1或2时，X2和X1是近邻点

2.2 k值的选择

在应用中，k值一般取一个较小的数值，通常采用交叉验证法来选取最优k值

k较小时，模型复杂，容易过拟合

k较大时，模型简单

2.3 分类决策规则

常用：多数表决规则(majority voting rule)：0-1

损失函数下

经验风险最小化.

原文地址：http://www.cnblogs.com/bethansy/p/7260070.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行