首页 > 其他好文 > 详细

【数据挖掘课程】(2)数据

时间：2019-01-19 13:51:29 阅读：242 评论：0 收藏：0 [点我收藏+]

标签：分享图片 lis missing blog mat select 预处理出现 val

摘要

1.属性和对象(attributes and objects)

2.数据集类型(types of data sets)

3.数据质量(data quality)

4.数据预处理(data preprocessing)

1.属性和对象

属性和对象构成了数据，在完成一个数据挖掘任务时，

数据(datas)=对象(objects)+属性(attributes)

技术分享图片

属性的别称

维度dimensions, 特征features, 变量variables
属性的分类

标称(nominal), 序数(ordinal), 区间(interval), 比例(ratio)

2.数据集类型

记录(record)

(1) 包含诸多记录的表格，每个对象有一系列属性

(2) 文档数据：

词袋(bag-of-words)

索引矩阵

(3)切片数据(transaction data)
图和网络(graph and network)

(1) 万维网 (world wide web)

每个网页包含指向其他网页的url，这样的指向关系构成网络

(2) 社交网络 (social or information networks)

(3) 分子结构 (molecular structures)
其他

(1) 空间位置信息(spatial)

(2) 图片(image)

(3) 多媒体(multimedia)

3.数据质量

数据的可能缺陷

(1)噪声(noise)和极端值(outliers)

噪声对正确的值产生改动: 比如电视上出现的雪花状图案

极端值: 在数据集中明显偏离其他数据项的数据项，极端值可能是需要去除的噪声，也可能是数据挖掘任务的目标

(2)缺值(missing value)

缺值的原因分为，数据未收集到(eg. 人拒绝提供年龄信息)，或者数据项数值为空(eg. 儿童没有年收入)

(3)值重复(duplicate data)

比如一个人有多个e-mail, 数据集中就会有该人的多条冗余记录
怎样补救数据集缺陷

(1)缺值处理: 去除这条记录/给缺值一个估计值/分析时忽略缺值

(2)值重复: 合并冗余记录

4.数据预处理

集成(aggregation)

把多个特征合并成一个特征，或把多个对象合并成一个对象。

集成后的数据有更少的变量，也更加稳定
抽样(sampling)

抽样所得的样本一定要有代表性，足以代表整个数据集
降维(dimensionality Reduction)
(feature subset selection)
(feature creation)
(discretization and binarization)
(attribute transformation)

【数据挖掘课程】(2)数据

标签：分享图片 lis missing blog mat select 预处理出现 val

原文地址：https://www.cnblogs.com/jocelynzym/p/10291455.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！