首页 > 其他好文 > 详细

k近邻法（k-nearest neighbor, k-NN）

时间：2016-05-09 00:16:16 阅读：298 评论：0 收藏：0 [点我收藏+]

标签：

$技术分享$ 近邻法（ $技术分享$ -nearest neighbor, $技术分享$ -NN）是一种基本的分类方法。

$技术分享$ 近邻法假设给定一个数据集，其中的样例类别已定。分类时，对新的样例，根据这个新样例的 $技术分享$ 个最近邻的训练样例的类别，通过多数表决等方式进行预测。

因此， $技术分享$ 近邻法不具有显式的学习过程。 $技术分享$ 值的选择、距离度量及分类决策规则是 $技术分享$ 近邻法的三个基本要素。

$技术分享$ 近邻法于1968年由Cover和Hart提出。

给定训练集 $技术分享$ 并且训练集 $技术分享$ ，一共 $技术分享$ 个样本， $技术分享$ 个维度，用 $技术分享$ 表示数据集中的第 $技术分享$ 个样本，用 $技术分享$ 表示标记（类别）向量， $技术分享$ 代表第 $技术分享$ 个样本 $技术分享$ 的标记。

我们这时候要预测一个测试样例 $技术分享$ 的标记 $技术分享$ ，运用 $技术分享$ 近邻法，按照以下步骤进行：

根据选定的距离度量，在训练集 $技术分享$ 中找出与 $技术分享$ 最近邻的 $技术分享$ 个样例，将这些样例表示为集合 $技术分享$
在 $技术分享$ 中根据分类决策规则（如多数表决）决定 $技术分享$ 的标记 $技术分享$ ：

$技术分享$

其中， $技术分享$ 为指示函数，即当 $技术分享$ 时值为1，否则为0， $技术分享$ 为训练集的所有标记种类， $技术分享$ 为第 $技术分享$ 个类别的标记。

当 $技术分享$ 为1时， $技术分享$ 近邻法就被称为最近邻法。测试样例的类别就完成取决于离它最近的那个样例的类别。

下面我们谈谈 $技术分享$ 近邻法的实现： $技术分享$ 树。

在实现 $技术分享$ 近邻法的时候，最简单的实现方法肯定是线性扫描（linear scan），这时需要计算测试样例与训练集中的每一个训练实例的距离，当训练集很大时，计算非常耗时，这种方法是不可行的。

为了提高 $技术分享$ 近邻搜索的效率，可以考虑使用特殊的结构存储训练数据，以减少计算距离的次数。具体的方法很多，在这里我们介绍 $技术分享$ 树方法。

$技术分享$ 树是一种对 $技术分享$ 维空间里中的实例点进行存储以便对其进行快速检索的树形数据结构。 $技术分享$ 树是一个二叉树，表示对 $技术分享$ 维空间的一个划分（partition）。构造 $技术分享$ 树相当于不断地用垂直于坐标轴的超平面将 $技术分享$ 维空间划分，构成一系列的 $技术分享$ 维超矩形区域。 $技术分享$ 树的每个结点都对应于一个 $技术分享$ 维超矩形区域。

对于训练集 $技术分享$ ，有 $技术分享$ 个样例，维度为 $技术分享$ 维，构造 $技术分享$ 树的步骤如下：

构造根结点，根结点对应于包含 $技术分享$ 的所有样例的超矩形区域。
选择第一维度为坐标轴，以 $技术分享$ 中所有样例在第一维度上的值的中位数为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与当前选定的坐标轴垂直的超平面实现。这样就由根结点生成了深度为1的左、右子结点：左子结点里面的所有样例在第一维度上的值小于切分点，右子结点里面的所有样例在第一维度上的值大于切分点。
重复第2步，对于当前深度为 $技术分享$ 的结点，选择第 $技术分享$ 个维度为坐标轴，切分的过程与第2步相同。这样就由深度为 $技术分享$ 的结点生成了深度为 $技术分享$ 的左、右子结点。
直到两个子区域没有实例存在时停止，从而形成 $技术分享$ 树的区域划分。

举书上的例子，对于数据集 $技术分享$ ，构造 $技术分享$ 树，它的特征空间划分如下图所示：

技术分享

构造的 $技术分享$ 树如下所示：

技术分享

现在我们要利用 $技术分享$ 树进行最近邻搜索，其图示如下：

技术分享

其中S为测试样例，用S首先找到了包含S的叶节点D，然后以画出S为圆心通过点D的圆，则最近邻一定在这个圆的内部。然后依次返回父结点，看是对应的区域是否与圆相交，比较其中的结点与当前最近点的距离，并进行更新，从而找出最近邻点。

k近邻法（k-nearest neighbor, k-NN）

标签：

原文地址：http://www.cnblogs.com/Rambler1995/p/5472262.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！