码迷,mamicode.com
首页 > 其他好文 > 详细

【数据挖掘课程】(2)数据

时间:2019-01-19 13:51:29      阅读:242      评论:0      收藏:0      [点我收藏+]

标签:分享图片   lis   missing   blog   mat   select   预处理   出现   val   

摘要

1.属性和对象(attributes and objects)

2.数据集类型(types of data sets)

3.数据质量(data quality)

4.数据预处理(data preprocessing)

 

1.属性和对象

属性和对象构成了数据,在完成一个数据挖掘任务时,

  • 数据(datas)=对象(objects)+属性(attributes)

技术分享图片

  • 属性的别称

    维度dimensions, 特征features, 变量variables

  • 属性的分类

    标称(nominal), 序数(ordinal), 区间(interval), 比例(ratio)

 

2.数据集类型

  • 记录(record)

    (1) 包含诸多记录的表格,每个对象有一系列属性

    (2) 文档数据:

    词袋(bag-of-words)

    索引矩阵

    (3)切片数据(transaction data)

    技术分享图片

  • 图和网络(graph and network)

    (1) 万维网 (world wide web)

    每个网页包含指向其他网页的url,这样的指向关系构成网络

    (2) 社交网络 (social or information networks)

    (3) 分子结构 (molecular structures)

  • 其他

    (1) 空间位置信息(spatial)

    (2) 图片(image)

    (3) 多媒体(multimedia)

 

3.数据质量

  • 数据的可能缺陷

    (1)噪声(noise)和极端值(outliers)

    噪声对正确的值产生改动: 比如电视上出现的雪花状图案

    极端值: 在数据集中明显偏离其他数据项的数据项,极端值可能是需要去除的噪声,也可能是数据挖掘任务的目标

    (2)缺值(missing value)

    缺值的原因分为,数据未收集到(eg. 人拒绝提供年龄信息),或者数据项数值为空(eg. 儿童没有年收入)

    (3)值重复(duplicate data)

    比如一个人有多个e-mail, 数据集中就会有该人的多条冗余记录

  • 怎样补救数据集缺陷

    (1)缺值处理: 去除这条记录/给缺值一个估计值/分析时忽略缺值

    (2)值重复: 合并冗余记录

 

4.数据预处理

  • 集成(aggregation)

    把多个特征合并成一个特征,或把多个对象合并成一个对象。

    集成后的数据有更少的变量,也更加稳定

  • 抽样(sampling)

    抽样所得的样本一定要有代表性,足以代表整个数据集

  • 降维(dimensionality Reduction)

  • (feature subset selection)

  • (feature creation)

  • (discretization and binarization)

  • (attribute transformation)

【数据挖掘课程】(2)数据

标签:分享图片   lis   missing   blog   mat   select   预处理   出现   val   

原文地址:https://www.cnblogs.com/jocelynzym/p/10291455.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!