【读书笔记-数据挖掘概念与技术】离群点检测

时间：2015-04-08 21:32:10 阅读：559 评论：0 收藏：0 [点我收藏+]

标签：

1 离群点和离群点分析

1.2 离群点的类型

a.全局离群点

显著偏离数据集中的其余对象，最简单的一类离群点。

检测方法：找到一个合适的偏离度量

b.情境离群点

离群点的值依赖于情境。分为情境属性（定义对象的情境）和行为属性（定义对象的特征）

c.集体离群点

数据对象的子集形成集体离群点，如果这些对象作为整体显著偏离整个数据集。

1.3 离群点检测的挑战

正常数据与异常数据的界限不明显；

离群点≠噪声

2 离群点检测方法

两大类：

a.根据用于分析的数据样本是否具有领域专家提供的，可以用来构建离群点检测模型的标号，对离群点检测方法进行分类：

2.1 监督、半监督、无监督

a.监督方法：

专家标记出正常对象，对其建模构造分类器，不与正常对象模型匹配的其他对象都视为离群点

挑战：类不平衡问题；捕获尽可能多的离群点比把正常对象武当离群点更重要

b.无监督方法：

没有标记，假定“正常对象在某种程度上是聚类的”。

中心思想：先找出簇，然后，不属于任何簇的对象都被检测为离群点。

两个问题：不属于任何簇的对象可能是噪声，而不是离群点；先找出簇，在找出离群点的开销可能太大。

c.半监督方法

b.根据各方法关于正常对象和离群点的假定，对各方法分组：

3 统计学方法

统计学：假定正常的数据对象由一个统计模型产生，正常对象出现在该随机模型的高概率区域中，而低概率区域中的对象是离群点。

参数方法：

基于正态分布的一元离群点检测：

      a.最大似然检测一元离群点；

      b.grubb检验（最大标准残差检验）；

多元离群点：（核心思想：把多元离群点检测任务转换成一元离群点检测问题）

      a.马哈拉诺比斯距离检测多元离群点；

      b.X²统计量的多元离群点检测；

使用混合参数分布

       a.假定正常的数据对象被多个正态分布产生；

       b.使用多个簇检测多元离群点；

非参数方法：

       直方图检测离群点

              缺点：很难选择一个合适的箱尺寸，箱太小，容易被误识别为离群点；箱太大，离群点容易被误认为正常。

              为了解决这个问题，可以采用核密度估计来估计数据的概率密度分布。把每个观测对象看作一个周围区域中的高概率密度指示子。一个点上的概率密度依赖于该点到观测对象的距离。使用核函数对样本点对其邻域内的影响建模。核函数是一个非负实数值可积函数。