码迷,mamicode.com
首页 > 其他好文 > 详细

sklearn数据集

时间:2019-11-02 17:29:55      阅读:102      评论:0      收藏:0      [点我收藏+]

标签:names   spl   target   span   imp   ups   font   建模   com   

数据集划分:

  机器学习一般的数据集会划分为两个部分

训练数据:

  用于训练,构建模型

测试数据:

  在模型检验时使用,用于评估模型是否有效

sklearn数据集划分API:

技术图片

代码示例文末!

scikit-learn数据集API:

技术图片

 获取数据集的返回类型:

技术图片

 数据集进行分割:

技术图片

 代码示例:

 1 import os
 2 from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
 3 from sklearn.model_selection import train_test_split
 4 
 5 
 6 li = load_iris()  # sklearn库具有获取数据的接口
 7 
 8 print(li.data)  # 获取特征值
 9 print()
10 # 0、1、2分别代表鸾尾花的三个类别
11 print(li.target)  #获取目标值
12 
13 print(li.DESCR)  # 打印描述,150个样本,四个特征,三个类别
14 
15 print(li.feature_names)  # 特征明
16 print(li.target_names)  # 标签类别名
17 
18 
19 
20 # 注意返回值: 训练集train,x_train,y_train,测试集test,x_test,y_test
21 # x_train为训练集的特征值,y_train为训练集的目标值,x_test为测试集的特征值,y_test为测试集的目标值
22 # 注意,接收参数的顺序固定
23 # 训练集占75%,测试集占25%
24 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
25 print(训练集的特征值和目标值:, x_train, y_train)
26 print(测试集的特征值和目标值:, x_test, y_test)
27 
28 
29 
30 # 获取新闻数据,all代表下载所有,训练集和测试集都下载,data_home保存的路径
31 news = fetch_20newsgroups(data_home=os.path.curdir, subset=all)
32 print(news.data)
33 print(news.target)
34 
35 
36 lb = load_boston()  # 回归数据
37 print(获取特征值)
38 print(lb.data)
39 print(目标值)
40 print(lb.target)
41 print(lb.DESCR)

 

sklearn数据集

标签:names   spl   target   span   imp   ups   font   建模   com   

原文地址:https://www.cnblogs.com/springionic/p/11782800.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!