标签:
显著偏离数据集中的其余对象,最简单的一类离群点。
检测方法:找到一个合适的偏离度量
离群点的值依赖于情境。分为情境属性(定义对象的情境)和行为属性(定义对象的特征)
数据对象的子集形成集体离群点,如果这些对象作为整体显著偏离整个数据集。
正常数据与异常数据的界限不明显;
离群点≠噪声
两大类:
a.根据用于分析的数据样本是否具有领域专家提供的,可以用来构建离群点检测模型的标号,对离群点检测方法进行分类:
专家标记出正常对象,对其建模构造分类器,不与正常对象模型匹配的其他对象都视为离群点
挑战:类不平衡问题;捕获尽可能多的离群点比把正常对象武当离群点更重要
没有标记,假定“正常对象在某种程度上是聚类的”。
中心思想:先找出簇,然后,不属于任何簇的对象都被检测为离群点。
两个问题:不属于任何簇的对象可能是噪声,而不是离群点;先找出簇,在找出离群点的开销可能太大。
c.半监督方法
b.根据各方法关于正常对象和离群点的假定,对各方法分组:
统计学:假定正常的数据对象由一个统计模型产生,正常对象出现在该随机模型的高概率区域中,而低概率区域中的对象是离群点。
参数方法:
基于正态分布的一元离群点检测:
a.最大似然检测一元离群点;
b.grubb检验(最大标准残差检验);
多元离群点:(核心思想:把多元离群点检测任务转换成一元离群点检测问题)
a.马哈拉诺比斯距离检测多元离群点;
b.X²统计量的多元离群点检测;
使用混合参数分布
a.假定正常的数据对象被多个正态分布产生;
b.使用多个簇检测多元离群点;
非参数方法:
直方图检测离群点
缺点:很难选择一个合适的箱尺寸,箱太小,容易被误识别为离群点;箱太大,离群点容易被误认为正常。
为了解决这个问题,可以采用核密度估计来估计数据的概率密度分布。把每个观测对象看作一个周围区域中的高概率密度指示子。一个点上的概率密度依赖于该点到观测对象的距离。使用核函数对样本点对其邻域内的影响建模。核函数是一个非负实数值可积函数。
假定一个对象是离群点,如果它在特征空间中的最近邻也远离它,即该对象与它的最近邻性显著地偏离数据集中的其他对象与他们的近邻之间的近邻性
假定正常数据对象属于大的稠密的簇,而离群点属于小的或稀疏的簇,或者不属于簇。
优点:
无监督
缺点:
有效性依赖于所使用的聚类方法,开销大
点是有标号的,可用于构建分类器:如用svm来构建决策边界
挑战:
eg.HilOut算法
思想:高维规约到低维,使用传统的离群点检测方法
降维可采用PCA主成份分析
eg.可以算角度
标签:
原文地址:http://www.cnblogs.com/XBWer/p/4403613.html