标签:区域 线性 递归 精确 小数点 sel alt ble 商业
概览
为什么要使用数据可视化?通过展示三个例子可以看出数据可视化:
1、可以迅速区分数据集的趋势类型
2、可以迅速了解数据集内部的对比关系
3、可以在小范围的物理区域展示大量的数据
例1:安斯库姆四重奏(Anscombe‘s quatet )
给定四组表格数据如下:
I (x) | I (y) | II (x) | II (y) | III (x) | III (y) | IV (x) | IV (y) |
---|---|---|---|---|---|---|---|
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Step 1 基本统计特征
通过计算四组数据的基本统计特征,四组数据具有相同的统计特征,具体统计值如下:
属性 | 值 |
---|---|
每组 x 的均值 | 9(精确值) |
每组 x 的样本方差 | 11(精确值) |
每组 y 的均值 | 7.5 (精确到小数点后两位) |
每组 y 的样本方差 | 4.122 或 4.127(精确到小数点后三位) |
每组 x 和 y 之间的关系 | 0.816 (精确到小数点后三位) |
每组的线性递归直线 | 3.00 + 0.500*x(分别精确到小数点后两位和三位) |
其中线性回归的拟合优度$R^2$也相同,只看数据本身和基本统计特征值的话,除了第四组中,含有大量相同的x值之外,根本无法看出四组数据有什么不同。那么接下来看看可视化后的效果吧!
Step 2 可视化效果
数据可视化之后,明显看出四组数据之间的差异,即第二、三、四组的线性趋势明显不对,这就是数据可视化的第一个作用:迅速看出数据集的趋势类型。
注:基本统计特征值无法区分数据集之间的趋势差异,并不代表无法用其他统计量区分数据趋势类型,只是相对构建和计算复杂的统计量来说,数据可视化的时间成本更少。这可能也是为什么“在回归分析中频繁使用散点图看趋势”的原因。
标签:区域 线性 递归 精确 小数点 sel alt ble 商业
原文地址:http://www.cnblogs.com/kyrie9527/p/7580782.html