1 首先回答:什么是离散数据?什么是连续数据?
统计学中经常会见到离散数据和连续数据或者离散变量或者连续变量,理解这两种数据的背后含义如下:
1) continuous variable or discrete variable ; continuous data or discrete data。
用苏东坡的一首诗来解释这个问题最恰当不过了"横看成林侧成峰,远近高低各不同,不识庐山真面目,只缘身在此山中。"这就是解释离散型和连续型最好的解释。
(离散型和连续型的图示)
2) 离散数据和连续数据就好比我们转换坐标,直白点儿讲就是换一个角度来观察同一个事物。比如:横看成林,树林都是一颗一颗单个的树木,但是我们游走在江上从远处看这一片森林就成了“远近高低各不同”的连续山峰了。好比下面的这个坐标。
下图就是树木,一个一个的数据点,这就是离散数据,就是一个一个单独的点位,自身和左右都没啥关系。但是我们换一个角度,把他们练成一条曲线,总体观察他们的变化状态,就形成了连续数据。
自比如随机变量中,我们也可以用这种方式来表示。
因此,很容易理解的就是一个概念就是离散是个体关系,连续是总体状态(当然这里的总体状态是观察他们的趋向规律)。
3) 因此:世界是连续的,但是物质是离散的。分秒是离散的,时间是连续的。离散是点,连续是线。离散是孤立的,连续是趋向的。本质上来说,所有的连续数据都是离散数据。观察的角度不同,导致他们所反映的性质也有所不同。离散一般用P,probability概率表示,点对点的关系,连续用f,function函数表示,用函数式表示一连串离散的连续状态。从极限和导数出发,离散是分而可能再分的事物,从积分出发,连续是这种事物连续的状态。离散具有随机性,连续具有规律性。离散是原子、分子、中子、质子等,连续是你看到这些元素组成的世界。
4) 再不明白,就是一句话:换个角度看看这个世界会更美,就是离散和连续的现实含义。
2 连续数据的离散化的基本概念。
通常情况下我们的样本或者我们研究的数据,连续这种类型的数据占大多数。观察起来只能说是:“看上去很美”,很难从这些外表来知道组成某种特征数据的样子,把他们进行离散化是比较有必要的。“可能你看上去的都是错的”,这种错不是真的错,是不知道数据的本质是由什么组成的。可能一连串的股票K线图走势,每一个数字组成连续的数据,但是不可能取胜,每一个数字背后都有其各种不同的含义,能够挖掘出来符合某种特征含义的数据从你看到的表面现象中,这才是功力,抛开杂物,还原本质,进行抽象的分解,而不是具象、表象的看东西,这才是真正的智慧!
3 基本定义:
连续属性离散化就是采取各种方法将连续的区间划分为小的区间,并将这些连续的小区间与离散值关联起来。
连续属性的离散化的问题本质是:决定选择多少分割点和确定分割点的位置。
4 连续属性离散化的目的
在实际数据库中存在较多的连续属性,而现有的很多数据挖掘的算法只能处理离散型的属性,包括很多时间序列模型的也只能处理离散属性的数据,因此连续属性离散化是应用这些算法的前提。此外,有效的离散化能够减少算法的实际和空间的开销、提高系统对样本的聚类能力、增强系统抗数据噪音的能力以及提高算法的学习精度。
5 连续属性离散化的好处
* 减少给定连续特征值的个数
* 相对连续特征更接近于知识层面的表述
* 离散化的数据更容易理解、使用和解释!
* 很多不适用于连续型数据的算法得以适用
* 可以有效地客服数据中隐藏的缺陷,式模型结果更加稳定、更加鲁棒
6 离散化处理的一般过程
1) 对连续属性值按照某种指定的规则进行排序
2) 初步确定连续属性的划分断点
3) 按照某种给定的判断标准继续分割断点或合并断点!
3) 如果第三步得到判定标准的终止条件,则终止整个连续属性离散化过程,否则继续按照第三步执行
7 分类
属性离散化的方法有很多,基本上可以分为三种:
1) 无监督离散化和有监督离散化。(supervising discrete and unsupervising discrete)
在离散化过程中使用类信息的方法是有监督的,而不使用类信息的方法是无监督的。
2) 全局离散化和局部离散化。
全局离散化指使用整个样本空间进行离散化,而局部离散化指在样本空间的一个区域内进行离散化。
3) 动态离散化和静态离散化。动态离散化的方法就是建立分类模型的同时对连续属性进行离散化,而静态离散化方法就是在进行分类之前完成离散化处理。
8 举例:属性离散化的方法——无监督离散化
等宽分箱法:将数据均匀划分成n等份,每份的间距相等。
等频分箱法:把观察点均匀分为N等份,每份包含的观察点数相同。
自定义法:根据研究目的,业务需求或数据分布情况进行分段。
优点:方法简单,易于操作
缺点:需要人为的规定划分区间的个数。
等宽法对异常点比较敏感,倾向于不均匀的把实例分布到各个箱中。
等频法虽然避免了上述问题,却可能将具有相同类标号的相同特征值分入不同的箱中以满足箱中数据的固定个数的条件。
* 异常点敏感问题
离散化前首先设定某个阈值将异常数据移除。
方法1:
设定阈值为90%,将数据从小到大排序,移除全部数据的最小5%和最大5%数据。
方法2:
设定阈值为90%。将数据从小到大排序,然后对所有数据求和,计算每个数据占总和的比例,移除最大的占比10%的数据。
9 连续属性的离散化,重要的是特征属性的寻找,这是最关键的因素,对每类离散化的标签定义的准确与否是连续属性离散化的关键。