标签:near comm 删除 show 聚类 高斯 alpha sig zed
1. 代码实战
#!/usr/bin/env python #!_*_ coding:UTF-8 _*_ from sklearn import datasets from sklearn.linear_model import LinearRegression import matplotlib.pyplot as plt # 从内置训练数据集中加载房价数据 loaded_data = datasets.load_boston() data_X = loaded_data.data data_y = loaded_data.target model = LinearRegression() model.fit(data_X, data_y) print model.predict(data_X[:4]) print data_y[:4] X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=1) plt.scatter(X, y) plt.show()
结果:
[ 30.00821269 25.0298606 30.5702317 28.60814055]
[ 24. 21.6 34.7 33.4]
scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类:
datasets.load_*()
:获取小规模数据集。数据包含在 datasets 里datasets.fetch_*()
:获取大规模数据集。需要从网络上下载,函数的第一个参数是 data_home,表示数据集下载的目录,默认是 ~/scikit_learn_data/。要修改默认目录,可以修改环境变量SCIKIT_LEARN_DATA
。数据集目录可以通过datasets.get_data_home()
获取。clear_data_home(data_home=None)
删除所有下载数据。datasets.make_*()
:本地生成数据集。make_*
和 load_svmlight_*
返回的数据是 tuple(X, y) 格式Bunchload_*
和 fetch_*
函数返回的数据类型是 datasets.base.Bunch,本质上是一个 dict,它的键值对可用通过对象的属性方式访问。主要包含以下属性:
make_moons(n_samples=100, shuffle=True, noise=None, random_state=None):
make_multilabel_classification(n_samples=100, n_features=20, n_classes=5, n_labels=2, length=50, allow_unlabeled=True, sparse=False, return_indicator=‘dense‘, return_distributions=False, random_state=None):
生成 multilabel classification 数据集。
make_checkerboard(shape, n_clusters, noise=0.0, minval=10, maxval=100, shuffle=True, random_state=None):
提供 svmlight / libsvm 格式数据的导入或导出。
莫烦scikit-learn学习自修第四天【内置训练数据集】
标签:near comm 删除 show 聚类 高斯 alpha sig zed
原文地址:https://www.cnblogs.com/liuzhiqaingxyz/p/9589933.html