标签:分享图片 lis missing blog mat select 预处理 出现 val
1.属性和对象(attributes and objects)
2.数据集类型(types of data sets)
3.数据质量(data quality)
4.数据预处理(data preprocessing)
属性和对象构成了数据,在完成一个数据挖掘任务时,
数据(datas)=对象(objects)+属性(attributes)
属性的别称
维度dimensions, 特征features, 变量variables
属性的分类
标称(nominal), 序数(ordinal), 区间(interval), 比例(ratio)
记录(record)
(1) 包含诸多记录的表格,每个对象有一系列属性
(2) 文档数据:
词袋(bag-of-words)
索引矩阵
(3)切片数据(transaction data)
图和网络(graph and network)
(1) 万维网 (world wide web)
每个网页包含指向其他网页的url,这样的指向关系构成网络
(2) 社交网络 (social or information networks)
(3) 分子结构 (molecular structures)
其他
(1) 空间位置信息(spatial)
(2) 图片(image)
(3) 多媒体(multimedia)
数据的可能缺陷
(1)噪声(noise)和极端值(outliers)
噪声对正确的值产生改动: 比如电视上出现的雪花状图案
极端值: 在数据集中明显偏离其他数据项的数据项,极端值可能是需要去除的噪声,也可能是数据挖掘任务的目标
(2)缺值(missing value)
缺值的原因分为,数据未收集到(eg. 人拒绝提供年龄信息),或者数据项数值为空(eg. 儿童没有年收入)
(3)值重复(duplicate data)
比如一个人有多个e-mail, 数据集中就会有该人的多条冗余记录
怎样补救数据集缺陷
(1)缺值处理: 去除这条记录/给缺值一个估计值/分析时忽略缺值
(2)值重复: 合并冗余记录
集成(aggregation)
把多个特征合并成一个特征,或把多个对象合并成一个对象。
集成后的数据有更少的变量,也更加稳定
抽样(sampling)
抽样所得的样本一定要有代表性,足以代表整个数据集
降维(dimensionality Reduction)
(feature subset selection)
(feature creation)
(discretization and binarization)
标签:分享图片 lis missing blog mat select 预处理 出现 val
原文地址:https://www.cnblogs.com/jocelynzym/p/10291455.html