KNN算法在python里面可以使用pip install指令安装,我在实现之前查看过安装的KNN算法,十分全面,包括了对于手写体数据集的处理。我这里只是实现了基础的识别方法,能力有限,没有数据处理方法。
电脑太渣,没有自己训练数据集。
选取的数据集是已经处理好的。
如果自己要手动处理数据集,推荐mnist的。自己要写算法处理成图片。
#! /usr/bin/env python # -*- coding:utf-8 -*- # Author: gjt import numpy as npfrom os import listdir from sklearn.neighbors import KNeighborsClassifier as knn def img2vector(filename): returnVet = np.zeros((1,1024)) fr = open(filename) for i in range(32): listStr = fr.readline() for j in range(32): returnVet[0,32*i+j] = int(listStr[j]) return returnVet def handwritingClassTest(): hwLabels = [] trainingFileList = listdir(‘trainingDigits‘) m = len(trainingFileList) trainingMat = np.zeros((m,1024)) for i in range(m): fileNameStr = trainingFileList[i] classNumber = int(fileNameStr.split(‘_‘)[0]) hwLabels.append(classNumber) trainingMat[i, :] = img2vector(‘trainingDigits/%s‘ % (fileNameStr)) neigh = knn(n_neighbors=3,algorithm=‘auto‘) neigh.fit(trainingMat,hwLabels) testFileList = listdir("testdigits") errorCount = 0.0 mTest = len(testFileList) for i in range(mTest): fileNameStr = testFileList[i] classNumber = int(fileNameStr.split("_")[0]) vectorUnderTest = img2vector(‘testDigits/%s‘%(fileNameStr)) classifierResult = neigh.predict(vectorUnderTest) print("分类返回结果%d\t真实结果%d" % (classifierResult, classNumber)) if (classNumber != classifierResult): errorCount += 1.0 print("总共错了%d个\t错误率为%f%%" % (errorCount, errorCount / mTest * 100)) if __name__ == "__main__": handwritingClassTest()
效果还是可观的。。。
参考《机器学习实战》
我们不生产代码,只是代码的搬运工。
。。。。。。。。。。。。。。。