标签:
属性分类:
标称属性——“与名称相关”,它的值是一些符号或事物的名称。
eg.头发颜色(黑色、棕色、淡黄色、红色)
婚姻状况(单身、已婚、离异、丧偶)
二元属性——标称属性的一种,只有两个类别或状态:0或1(布尔属性)。
有对称与非对称之分,对称——两种状态具有同等价值并且携带相同的权重eg.性别
非对称——其状态的结果不是同样重要eg.化验结果(阴性0、阳性1)
序数属性——它的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
eg.成绩(A+、A、A-、B+、B、……)
评价(0——差评、1——中性、2——好评)
数值属性——它的值是可度量的量,用整数或实数值表示。可以是去见标度的或比率标度的
区间标度——eg.温度(5°、10°、15°、……)
比率标度——eg.重量、高度、速度、货币量
机器学习领域分类:
————————————————————————————————————————————————————————————————————————————
数据的基本统计描述
中心趋势度量——均值、中位数、众数
度量数据散布——极差、四分位数、方差、标准差、四分位数极差
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 Q1的位置= (n+1) × 0.25
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 Q2的位置= (n+1) × 0.5
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。 Q3的位置= (n+1) × 0.75
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
图形显示
这里的单变量就是:单价
在统计学中,QQ图[1] (Q代表分位数Quantile)是一种通过画出分位数来比较两个概率分布的图形方法。首先选定区间长度,点(x,y)对应于第一个分布(x轴)的分位数和第二个分布(y轴)相同的分位数。因此画出的是一条含参数的曲线,参数为区间个数。
如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y = x这条线。QQ图同样可以用来估计一个分布的位置参数。
QQ图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。[2]另外,QQ图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,QQ图是一种比直方图更加有效的方法,但是理解QQ图需要更多的背景知识。
————————————————————————————————————————————————————————————————————————————
数据可视化
————————————————————————————————————————————————————————————————————————————
度量数据的相似性和相异性(临近度度量)
不同类别的数据,d(i,j)有不同的计算方法。
得到:
标签:
原文地址:http://www.cnblogs.com/XBWer/p/4331254.html