码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘——统计学分析(三:数据的概括性度量)

时间:2018-10-04 10:58:36      阅读:299      评论:0      收藏:0      [点我收藏+]

标签:数据   pos   变异   正态分布   趋势   平均数   分析   分布   中心   

数据的概括性度量

数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。

 

集中趋势的度量

 

分类数据:众数

一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。

顺序数据:中位数、分位数

中位数、四分位数、十分位数、百分位数

数值型数据:平均数

主要适用于数值型数据,根据所掌握数据的不同,平均数的计算形式和计算公式:

简单平均数和加权平均数

众数、中位数和平均数的比较

单峰分布的大多数据:众数、中位数和平均数之间的关系如下—数据分布是对称的,众数、中位数和平均数必定相等。

离散程度的度量

分类数据:异众比率

非众数据的频数占总频数的比例,主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。

适用于测度分类数据的分散程度。

 

顺序数据:四分位差

反映中间50%数据的离散程度,其值越小,说明中间的数据越集中;其值越大,说明中间的数据越分散。

主要适用于顺序数据的离散程度。

 

数值型数据:方差和标准差

极差易受极端值的影响。

平均差全面地反映一组数据的离散程度。

方差:较好地反映数据的离散程度,实际中应用最广。

标准差:比方差更具实际意义。

相对离散程度:离散系数。

离散系数->变异系数,是一组数据的标准差与其相应平均数之比。离散系数越大说明数据的离散程度也大;离散系数越小,说明数据的离散程度也小。

偏态与峰态的度量

 

偏态及其测度

对数据分布对称性地测度,用偏态系数来表示,偏态系数=0,说明数据分布是对称的。

偏态系数不等于0,说明数据分布非对称的;若偏态系数大于1或小于1,称为高度偏态分布;若偏态系数在0.5~1-1~0.5之间,被认为是中等偏态分布;

峰态及其测度

峰态是相对于标准正态分布而言的。如果一组数据服从标准正态分布,则峰态系数的值等于0,若峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖。

 

 

 

数据挖掘——统计学分析(三:数据的概括性度量)

标签:数据   pos   变异   正态分布   趋势   平均数   分析   分布   中心   

原文地址:https://www.cnblogs.com/Erma/p/9739271.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!