标签:sklearn 机器学习 machine-learning 入门教程 介绍
原文链接:http://scikit-learn.github.io/dev/tutorial/basic/tutorial.html
章节内容
在这个章节中,我们主要介绍关于scikit-learn机器学习词库,并且将给出一个学习样例。
通常,一个学习问题是通过一系列的n个样本数据来学习然后尝试预测未知数据的属性。如果每一个样本超过一个单一的数值,例如多维输入(也叫做多维数据),那么它就拥有了多个特征。
我们可以把学习问题划分为几个大的来别:
训练集和测试集
机器学习是关于学习数据集的一些属性然后将它们应用到新的数据上。这就是为什么在机器学习中评价一个算法的通常惯例是把数据集切分为两个数据集,其中一个叫做训练集,用来学习数据的属性;另一个叫做测试集,在测试集上测试那些属性。
scikit-learn带有一些标准的数据集,例如用于分类的iris和digit数据集和用于回归的 boston house prices dataset .
下面,我们打开Python编译器,然后载入iris
和digits
数据集。我们的符号’$’表示shell提示,’>>>’表示Python编译器提示
$ python
>>> from sklearn import datasets
>>> iris = datasets.load_iris()
>>> digits = datasets.load_digits()
数据集是一个类似字典的对象,包含所有的数据和一些和数据有关的元数据。数据存储在.data
中,是个n_samples,n_features
的数组。在监督问题的情况下,一个或多个类别变量存储在.target成员中。更多有关的不同数据集的细节可以在dedicated section查找。
例如,在digits数据集情况下,digits.data
提供了可用于分类数字样本。
>>> print(digits.data)
[[ 0. 0. 5. ..., 0. 0. 0.]
[ 0. 0. 0. ..., 10. 0. 0.]
[ 0. 0. 0. ..., 16. 9. 0.]
...,
[ 0. 0. 1. ..., 6. 0. 0.]
[ 0. 0. 2. ..., 12. 0. 0.]
[ 0. 0. 10. ..., 12. 1. 0.]]
并且digits.target
给出了digit数据集的真实结果,这些数字是和我们正在学习的每个数字图像相关的数字。
>>> digits.target
array([0, 1, 2, ..., 8, 9, 8])
数组的形状
数据总是一些2D数组,shape(n_samples,n_features)
,尽管原始数据也许有一个不同的形状,就这个digits而言,每一个原始样例是一个shape(8,8)的图像,并且能被访问使用:
>>> digits.images[0]
array([[ 0., 0., 5., 13., 9., 1., 0., 0.],
[ 0., 0., 13., 15., 10., 15., 5., 0.],
[ 0., 3., 15., 2., 0., 11., 8., 0.],
[ 0., 4., 12., 0., 0., 8., 8., 0.],
[ 0., 5., 8., 0., 0., 9., 8., 0.],
[ 0., 4., 11., 0., 1., 12., 7., 0.],
[ 0., 2., 14., 5., 10., 12., 0., 0.],
[ 0., 0., 6., 13., 10., 0., 0., 0.]])
simple example on this dataset 这个数据集表明了在scikit-learn中怎样从原始问题开始着手制作数据。
在digits数据集中,给定一幅手写数字的数字图像,任务是预测结果。我们给定的样本有10种类别(是数字0到9),基于此我们建立一个估计方法能够预测我们没有见过的样本属于哪一类。
在scikit-learn中,用于分类的估计模型是一个实现了fit(x,y)方法和predict(T)方法的Python对象。
估计模型的例子是在实现了support vector classification支持向量机的类 sklearn.svm.SVC。估计模型的构造函数带有模型参数,但是目前,我们将估计模型当做一个黑盒子。
>>> from sklearn import svm
>>> clf = svm.SVC(gamma=0.001, C=100.)
选择模型参数
在这个例子中,我们这设定了gamma值。可以通过使用网格搜索和交叉验证自动的找出最好的参数值
我们把我们的评估模型命名为clf,作为一个分类器,它现在必须拟合这个模型,也就是它必须从这个模型学习。我们通过将数据集传递给fit函数完成。作为训练集,除了最后一个样本,我们选择其余的所有样本。通过python语句[:-1]
选择样本,这条语句将从digits.data中产生一个除了最后一个样本的新数组。
clf.fit(digits.data[:-1], digits.target[:-1])
SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0, degree=3,
gamma=0.001, kernel=‘rbf‘, max_iter=-1, probability=False,
random_state=None, shrinking=True, tol=0.001, verbose=False)
现在,我们可以预测新值,尤其是我们可以问分类器在digits数据集中的用来训练分类器时没有使用的最后一个数据是数字几:
相应的图像如下所示:
正如你看到的,这是一个具有挑战性的任务:图象的分辨率很低。你认同这个分类器吗?
一个完整的分类问题实例可以通过下面的链接下载,用来作为你运行并且学习的例子 Recognizing hand-written digits
可以通过使用python的built-in持久化模型在scikit中保存一个模型,命名pickle:
>>> from sklearn import svm
>>> from sklearn import datasets
>>> clf = svm.SVC()
>>> iris = datasets.load_iris()
>>> X, y = iris.data, iris.target
>>> clf.fit(X, y)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape=None, degree=3, gamma=‘auto‘, kernel=‘rbf‘,
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
>>> import pickle
>>> s = pickle.dumps(clf)
>>> clf2 = pickle.loads(s)
>>> clf2.predict(X[0])
array([0])
>>> y[0]
0
在scikit的特别情况下,使用joblib替换pickle(joblib.dump & joblib.load)会更有趣,它在大数据上是更有效的,但是仅仅只能存入的是字典而不是字符串。
>>> from sklearn.externals import joblib
>>> joblib.dump(clf, ‘filename.pkl‘)
然后你就可以读取上面的pickled模型使用了(通常是在其它的Python程序中):
>>> clf = joblib.load(‘filename.pkl‘)
scikit-learn估计量有一些特定的规则是的分类器更具有预测性
Type casting 类型转换
除非特别指定,否则输入格式是float64
>>> import numpy as np
>>> from sklearn import random_projection
>>> rng = np.random.RandomState(0)
>>> X = rng.rand(10, 2000)
>>> X = np.array(X, dtype=‘float32‘)
>>> X.dtype
dtype(‘float32‘)
>>> transformer = random_projection.GaussianRandomProjection()
>>> X_new = transformer.fit_transform(X)
>>> X_new.dtype
dtype(‘float64‘)
在这个例子中,X
是float32
,通过fit_transform(X)把它转为float64
回归的输出值是float64
,分类的也是:
>>> from sklearn import datasets
>>> from sklearn.svm import SVC
>>> iris = datasets.load_iris()
>>> clf = SVC()
>>> clf.fit(iris.data, iris.target)
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape=None, degree=3, gamma=‘auto‘, kernel=‘rbf‘,
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
>>> list(clf.predict(iris.data[:3]))
[0, 0, 0]
>>> clf.fit(iris.data, iris.target_names[iris.target])
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
decision_function_shape=None, degree=3, gamma=‘auto‘, kernel=‘rbf‘,
max_iter=-1, probability=False, random_state=None, shrinking=True,
tol=0.001, verbose=False)
>>> list(clf.predict(iris.data[:3]))
[‘setosa‘, ‘setosa‘, ‘setosa‘]
这里,第一次predict()
返回的是一个整数数组,因为在拟合中用到了iris.target
(一个整数数组),第二个predict
返回的是一个字符串数组,因为用来拟合的是iris.target_names
。
推介一个好用的python IDE:
winPython下载地址:WinPython_2.7
标签:sklearn 机器学习 machine-learning 入门教程 介绍
原文地址:http://blog.csdn.net/dream_angel_z/article/details/46972669