import numpy as np

import matplotlib.pyplot as plt

from matplotlib.colors import ListedColormap

from sklearn import neighbors,datasets

iris=datasets.load_iris()

print(iris.data[0:5])#打印数据的前五行

[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]
 [ 4.7  3.2  1.3  0.2]
 [ 4.6  3.1  1.5  0.2]
 [ 5.   3.6  1.4  0.2]]

print(iris.target)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

#设置iris数据集的前两个属性作为一个变量x

X=iris.data[:,:2]

print(X[0:5])

[[ 5.1  3.5]
 [ 4.9  3. ]
 [ 4.7  3.2]
 [ 4.6  3.1]
 [ 5.   3.6]]

#取出类别标签所在的列存储在变量y中

Y=iris.target

#训练knn分类器，设置最近邻的个数为15，权重参数为uniform(最近邻的所有点都具备相同的权重)

clf=neighbors.KNeighborsClassifier(n_neighbors=15,weights=‘uniform‘).fit(X,Y)

print(clf)

KNeighborsClassifier(algorithm=‘auto‘, leaf_size=30, metric=‘minkowski‘,
           metric_params=None, n_jobs=1, n_neighbors=15, p=2,
           weights=‘uniform‘)

#绘图

h=0.02

#设置网格纵横坐标的最小值和最大值，限定范围

x_min,x_max=X[:,0].min()-1,X[:,0].max()+1

y_min,y_max=X[:,1].min()-1,X[:,1].max()+1

#使用np.arrange（x_min，x_max，h）生成起始值为x_min，终止值为x_max，步长为0.02的等差数列。

#使用meshgrid（np.arrange(x_min，x_max，h)，np.arrange(y_min,y_max,h)）生成两个矩阵分别进行行填充和列填充

xx,yy=np.meshgrid(np.arange(x_min,x_max,h),np.arange(y_min,y_max,h))

#使用ravel()将这两个矩阵变为按顺序输出的一维数组，np.c_()将两组的一维数组，两两组队，形成网格中的点#

#使用clf.predict()预测这些点的所属类别

Z=clf.predict(np.c_[xx.ravel(),yy.ravel()])

xx

array([[ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88],
       [ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88],
       [ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88],
       ..., 
       [ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88],
       [ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88],
       [ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88]])

yy

array([[ 1.  ,  1.  ,  1.  , ...,  1.  ,  1.  ,  1.  ],
       [ 1.02,  1.02,  1.02, ...,  1.02,  1.02,  1.02],
       [ 1.04,  1.04,  1.04, ...,  1.04,  1.04,  1.04],
       ..., 
       [ 5.34,  5.34,  5.34, ...,  5.34,  5.34,  5.34],
       [ 5.36,  5.36,  5.36, ...,  5.36,  5.36,  5.36],
       [ 5.38,  5.38,  5.38, ...,  5.38,  5.38,  5.38]])

xx.ravel()

array([ 3.3 ,  3.32,  3.34, ...,  8.84,  8.86,  8.88])

yy.ravel()

array([ 1.  ,  1.  ,  1.  , ...,  5.38,  5.38,  5.38])

np.c_[xx.ravel(),yy.ravel()]

array([[ 3.3 ,  1.  ],
       [ 3.32,  1.  ],
       [ 3.34,  1.  ],
       ..., 
       [ 8.84,  5.38],
       [ 8.86,  5.38],
       [ 8.88,  5.38]])

Z

array([0, 0, 0, ..., 2, 2, 2])

#填充颜色绘图

camp_light=ListedColormap([‘#FFAAAA‘,‘#AAFFAA‘,‘#AAAAFF‘])

camp_bold=ListedColormap([‘#FF0000‘,‘#00FF00‘,‘#0000FF‘])

Z=Z.reshape(xx.shape)

plt.pcolormesh(xx,yy,Z,cmap=camp_light)#根据预测结果为网格填充

<matplotlib.collections.QuadMesh at 0xa1846d8>

plt.scatter(X[:,0],X[:,1],c=Y,cmap=camp_bold,marker=‘o‘)#根据原始类别为所有的点填充颜色

<matplotlib.collections.PathCollection at 0xa184f60>

plt.xlim(xx.min(),xx.max())

(3.2999999999999998, 8.8800000000000061)

plt.ylim(yy.min(),yy.max())

(1.0, 5.3800000000000043)

#plt.title("3-Class classfication(k= % i,weights=‘distance‘)" % k_neighbors)

plt.show()

correct=0.0

Z1=clf.predict(np.c_[xx.ravel(),yy.ravel()])

for i in range(len(iris.data)):
    if Z1[i]== iris.target[i]: 
        correct+=1

correct/len(iris.data)  #正确率

0.4666666666666667

Scikit-Learn实战KNN

Scikit-Learn总结

Scikit-Learn（基于Python的工具包）

1.是一个基于Numpy，Scipy，Matplotlib的开源机器学习工具包。

2.该包于2007年发起，基本功能包涵了6个方面：分类、回归、聚类、数据降维、模型选择、预处理

*包括了大量常用的算法：**：SVM,逻辑回归,朴素贝叶斯,k-means*

*3.网站为：http://scikit-learn.org**鸢尾花数据集是由杰出的统计学家*

R.A.Fisher在20世纪30年代中期创建的，它被公认为用于数据挖掘的最著名的数据集。它包含3种植物种

*类（Iris setosa、Iris versicolor**和Iris virginica），每种各有50个样本。*

表1-4摘录了这个数据集。

它由4个属性组成：sepal length（花萼长度）、sepal width（花萼宽度）、petal length（花瓣长度）和petal width（花瓣宽度）（单位是cm）。

*与前面数据集不同的是，**鸢尾花的所有属性都是数值属性。*

1.Scikit-Learn基本知识的了解

2.Scikit-learn的六大功能

3.Scikit-Learn实战KNNDemo

Scikit-Learn实战KNN

Scikit-Learn总结

Scikit-Learn（基于Python的工具包）

1.是一个基于Numpy，Scipy，Matplotlib的开源机器学习工具包。

2.该包于2007年发起，基本功能包涵了6个方面：分类、回归、聚类、数据降维、模型选择、预处理

包括了大量常用的算法：：SVM,逻辑回归,朴素贝叶斯,k-means

3.网站为：http://scikit-learn.org鸢尾花数据集是由杰出的统计学家

R.A.Fisher在20世纪30年代中期创建的，它被公认为用于数据挖掘的最著名的数据集。它包含3种植物种

类（Iris setosa、Iris versicolor和Iris virginica），每种各有50个样本。

表1-4摘录了这个数据集。

它由4个属性组成：sepal length（花萼长度）、sepal width（花萼宽度）、petal length（花瓣长度）和petal width（花瓣宽度）（单位是cm）。

与前面数据集不同的是，鸢尾花的所有属性都是数值属性。

1.Scikit-Learn基本知识的了解

2.Scikit-learn的六大功能

3.Scikit-Learn实战KNNDemo

*包括了大量常用的算法：**：SVM,逻辑回归,朴素贝叶斯,k-means*

*3.网站为：http://scikit-learn.org**鸢尾花数据集是由杰出的统计学家*

*类（Iris setosa、Iris versicolor**和Iris virginica），每种各有50个样本。*

*与前面数据集不同的是，**鸢尾花的所有属性都是数值属性。*