码迷,mamicode.com
首页 > 其他好文 > 详细

【读书笔记-数据挖掘概念与技术】认识数据

时间:2015-03-12 00:49:34      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:

属性分类:

  • 标称属性(定性)
  • 二元属性(定性)
  • 序数属性(定性)
  • 数值属性(定量)

标称属性——“与名称相关”,它的值是一些符号或事物的名称。

eg.头发颜色(黑色、棕色、淡黄色、红色)

婚姻状况(单身、已婚、离异、丧偶)

二元属性——标称属性的一种,只有两个类别或状态:0或1(布尔属性)。

有对称与非对称之分,对称——两种状态具有同等价值并且携带相同的权重eg.性别

非对称——其状态的结果不是同样重要eg.化验结果(阴性0、阳性1)

序数属性——它的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。

eg.成绩(A+、A、A-、B+、B、……)

评价(0——差评、1——中性、2——好评)

数值属性——它的值是可度量的量,用整数或实数值表示。可以是去见标度的或比率标度的

区间标度——eg.温度(5°、10°、15°、……)

比率标度——eg.重量、高度、速度、货币量

机器学习领域分类:

  • 离散属性
  • 连续属性

————————————————————————————————————————————————————————————————————————————

数据的基本统计描述

中心趋势度量——均值、中位数、众数

度量数据散布——极差、四分位数、方差、标准差、四分位数极差

  • 极差:最大数-最小数
  • 四分位数:即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 Q1的位置= (n+1) × 0.25
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 Q2的位置= (n+1) × 0.5
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。 Q3的位置= (n+1) × 0.75
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

  • 四分位极差(IQR)=Q3-Q1
  • 五数概括——中位数Q2、四分位数Q1和Q3、最大值和最小值
  • 盒图(箱型图)——通过盒图,在分析数据的时候,盒图能够有效地帮助我们识别数据的特征:
    1、直观地识别数据集中的异常值(查看离群点)。
    2、判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。

技术分享

  • 方差&标准差

图形显示

  • 分位数图——用于观察单变量数据分布

技术分享

这里的单变量就是:单价

  • 分位数-分位数图或q-q图——观察一个分布到另一个分布是否有漂移

在统计学中,QQ图[1] (Q代表分位数Quantile)是一种通过画出分位数来比较两个概率分布的图形方法。首先选定区间长度,点(x,y)对应于第一个分布(x轴)的分位数和第二个分布(y轴)相同的分位数。因此画出的是一条含参数的曲线,参数为区间个数。
如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y = x这条线。QQ图同样可以用来估计一个分布的位置参数。
QQ图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。[2]另外,QQ图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,QQ图是一种比直方图更加有效的方法,但是理解QQ图需要更多的背景知识。

技术分享

  • 散点图与数据相关——两个数值变量之间看上去是否存在联系

技术分享

————————————————————————————————————————————————————————————————————————————

数据可视化

  • 基于像素
  • 几何投影
  • 基于图符
  • 层次
  • 复杂对象的可视化

————————————————————————————————————————————————————————————————————————————

度量数据的相似性和相异性(临近度度量)

技术分享

不同类别的数据,d(i,j)有不同的计算方法。

  • 标称属性

技术分享

  • 二元属性

技术分享

技术分享

技术分享

  • 数值属性——闵可夫斯基距离(Minkowski distance)、欧几里得距离、曼哈顿距离

技术分享

  • 序数属性

技术分享

得到:

技术分享

  • 混合类型属性——基于test1、2、3,取平均
  • 相似性评估:余弦相似性(用于比较文档)、Tanimoto系数

【读书笔记-数据挖掘概念与技术】认识数据

标签:

原文地址:http://www.cnblogs.com/XBWer/p/4331254.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!