码迷,mamicode.com
首页 > 编程语言 > 详细

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士:常凯 (二)数据集的介绍

时间:2017-12-14 12:04:18      阅读:319      评论:0      收藏:0      [点我收藏+]

标签:意义   segment   研究   compact   hal   gre   推断   比较   groov   

数据集的介绍

1.“鲍鱼年龄”数据集(Abalone Data Set)。是通过预测鲍鱼环,也就是鲍鱼的年轮,来推断鲍鱼寿命。该数据集来自于UCI(University of California,Irvine,UCI)提出的用于机器学习的数据库。

 技术分享图片

 

共有八个属性分别是:性别、长度、直径等

具体的属性的介绍

 技术分享图片

 

方法一:利用BP

 技术分享图片

 

方法使用ELM

 技术分享图片

 

方法三:使用SVM

 技术分享图片

 

我:通过Xmind函数发现其实对一种新的方法而言函数都是集成可以直接用的,我们要做的就是知道每个函数的具体的意义,以及知道大致的流程。理解是一切的基础,也是我们可以自由的使用函数的基础

2.“是否有心脏病”集的介绍

(Statlog (Heart)Data Set)是通过研究年龄,性别,血压等属性的值来判断被访者是否有心脏病。

 技术分享图片

 

具体的属性的特征:

 技术分享图片

 

chest pain                                     胸痛

resting blood pressure                           静息血压

serum cholestoral                               血清胆汁酸

fasting blood sugar                              空腹血糖

resting electrocardiographic results                 休息心电图结果

maxinum heart rate achieved                      最大心跳速率

exercise induced angina                           锻炼诱发心绞痛

oldpeak

the slope of the peak exercise ST segment             锻炼高峰期ST段的斜率

number of major vessels                           血管容量

thal                                            塔尔

输入:13个属性   输出:是1,否0

分别是三中方法处理:

3.“癌症患者生存期”集的介绍

(Haberman‘s Survival Data Set’),是通过岁病人手术时的年龄,手术年份,检测到阳性腋窝淋巴结数三个方面,来判断病人的生存状况

 技术分享图片

 

三个属性分别为:病人手术时的年龄,病人手术的年份,腋窝淋巴结阳性检测出的数量

病人的生存状况:1代表病人存活了五年甚至更久,2代表并没没活过5年

 技术分享图片

 

输入:三个属性

输出:两个标签

4.“小麦种子集”(Seed Data Set)

通过不同的三种小麦种子(Kama、Rosa、Canadian)的物理的特性进而去判断种子的类型

 技术分享图片

 

具体的属性:

 技术分享图片

 

Perimeter                                     周长

Compactness                                  紧凑

length of kernel                                内核长度

width of kernel                                 内核宽度

asymmetry coefficient                           不对称系数

length of kernel groove                           谷纹长度

输入:以上的这些属性

输出:就是判别属于那种类型

5.“印第安人是否有糖尿病”

(pima Indians Diabetes Data Set)是通过研究八个数值类型的属性然后的出相应的结论的判别。

数据集的最后一个部分为分类的属性:0表示没有糖尿病;1表示有

技术分享图片

 

 技术分享图片

 

 

Plasma glucose concentration a 2 hours in an oral glucose tolerance test   

 在口服葡萄糖耐量试验中血浆葡萄糖浓度为2小时

Diastolic blood pressure      舒张压

Triceps skin fold thickness       三头肌皮褶厚度

2-hours serum insulin           2小时血清胰岛素

Body mass index               体重指数

Diabetes  pedigree function     糖尿病谱系功能

6.“普葡萄酒种类”

(Wine Data Set)记录的是在意大利同一个区域里三种不同品种的葡萄酒的化学成分分析的结果。

 技术分享图片

 

具体的属性为:

 

 技术分享图片

 

阅读论文《基于神经网络的数据挖掘分类算法比较和分析研究》 安徽大学 工程硕士:常凯 (二)数据集的介绍

标签:意义   segment   研究   compact   hal   gre   推断   比较   groov   

原文地址:http://www.cnblogs.com/Adaisme/p/8036754.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!