首页 > 编程语言 > 详细

使用K近邻算法实现手写体识别系统

时间：2016-05-18 19:36:03 阅读：466 评论：0 收藏：0 [点我收藏+]

标签：

目录
1. 应用介绍
1.1实验环境介绍
1.2应用背景介绍
2. 数据来源及预处理
2.1数据来源及格式
2.2数据预处理
3. 算法设计与实现
3.1手写体识别系统算法实现过程
3.2 K近邻算法实现
3.3手写体识别系统实现
3.4算法改进与优化

4. 系统运行过程与结果展示

1.应用介绍
1.1实验环境介绍
本次实验主要使用Python语言开发完成，Python的版本为2.7，并且使用numpy函数库做一些数值计算和处理。
1.2应用背景介绍
本次实验实现的是简易的手写体识别系统，即根据用户输入的手写体照片可以识别出手写体数字是多少。本次输入的手写体是用0,1数字拼成的手写体数字。本次完成手写体的识别使用K近邻算法，k近邻算法设计简单，容易实现，且对特定的问题分类的效果也比较好。因此本次实验选择k近邻来对手写体进行分类和识别，也是对手写体图片特征数据的挖掘过程。

2.数据来源及预处理
2.1数据来源及格式
该数据集合修改自“手写数字数据集的光学识别” 一文中的数据集合，该文登载于2010年10月3日的UCI资料库中http://archive.ics.uci.edu/ml。
为了简单起见，这里构造的系统只能识别数字0到9。需要识别的数字已经使用图形处理软件，处理成具有相同的色彩和大小: 宽髙是32像素*32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内存空间，但是为了方便理解，我们还是将图像转换为文本格式。

技术分享

技术分享

图：数据源：手写体数据格式

2.2数据预处理
首先将图像转换为测试向量，本次实验大约使用了2000个例子，每个例子的内容如上图所示，每个数字大约有200个样本；目录testDigits中包含了大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器，使用目录testDigits中的数据测试分类器的效果。两组数据没有覆盖。部分数据如下：

技术分享

技术分享

图：数据目录

这里将图像格式化处理为一个向量。把一个32*32的二进制图像矩阵转换为1 x 1024的向量，这样前两节使用的分类器就可以处理数字图像信息了。

首先编写一段函数img2vector将图像转换为向量：该函数创建1*1024的Numpy数组，然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在Numpy数组中，最后返回数组。

技术分享

3. 算法设计与实现

3.1手写体识别系统算法实现过程

(1)收集数据：提供文本文件。

(2)准备数据：编写函数clasify0()，将图像格式转换为分类器使用的list格式。

(3)分析数据：在python命令提示符中检查数据，确保它符合要求。

(4测试算法：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。

3.2 K近邻算法实现

K近邻算法的实现过程是：

(1)计算已知类别数据集中的点与当前点之间的距离；

(2)按照距离递增次序排序；

(3)选取与当前点距离最小的k个点；

(4)确定前k个点所在类别的出现频率；

(5)返回前k个点出现频率最高的类别作为当前点的预测分类。

本系统在classify0函数中实现了k近邻算法。

技术分享

classifyO ()函数有4个输人参数:用于分类的输人向量是inX，输人的训练样本集为dataSet

标签向量为labels，最后的参数义表示用于选择最近邻居的数目，其中标签向量的元素数目和矩阵dataSet的行数相同。程序使用欧氏距离公式，计算两个向量点xA和xB之间的距离。

计算完所有点之间的距离后，可以对数据按照从小到大的次序排序。然后，确定前k个距离

最小元素所在的主要分类，输人k总是正整数；最后，将classCount字典分解为元组列表，然后使用程序第二行导入运算符模块的itemgetter方法，按照第二个元素的次序对元组进行排序。此处的排序为逆序，即按照从最大到最小次序排序，最后返回发生频率最高的元素标签。

3.3手写体识别系统实现

系统需要调用img2vector做数据预处理，然后调用classify0做分类，最后将对测试集分类的结果输出，并计算错误率。在实现中需要从os中导入listdir，可以列出给定目录的文件名。

将trainingDigits目录中的文件内容存储在列表中。然后可以得到目录中有多少文件，并将其存储在变量m中。接着，代码创建一个m行1024列的训练矩阵，该矩阵的每行数据存储一个图像。我们可以从文件名中解析出分类数字。该目录下的文件按照规则命名，如文件

9_45.txt的分类是9，它是数字9的第45个实例。

技术分享

3.4算法改进与优化

改变变量k的值、修改函数handwritingClassTest随机选取训练样本、改变训练样本的数目，都会对k近邻算法的错误率产生影响。

实际使用这个算法时，算法的执行效率并不高。因为算法需要为每个测试向量做2000次距离计算，每个距离计算包括了1024个维度浮点运算，总计要执行900次，此外，我们还需要为测试向量准备2 M B的存储空间。因此可以使用其他的算法做一些改进和优化。

4. 系统运行过程与结果展示

本次实验使用Python自带的ide编辑代码，之后直接调用相应的函数运行即可，程序输入是trainingDigits和testDigits中的手写体数据集。输出是对测试集识别的结果及正确的结果和最终识别的错误率。

（1）设定k值为3，运行过程及结果如下：

技术分享

技术分享

技术分享

技术分享

最终识别的错误率为1.2%。

（2）改变K值大小，设为6，运行过程及结果如下：

技术分享

最终的错误率是2.0%，即随着k值的增大错误率在增加。
（3）改变k值大小，设定为2，运行结果如下：

技术分享

最终的错误率是1.4%，错误率增加了。

因此选择合适的k值可以有效的降低错误，提高识别的正确率。

使用K近邻算法实现手写体识别系统

标签：

原文地址：http://blog.csdn.net/lihaitao000/article/details/51405336

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！