码迷,mamicode.com
首页 > 其他好文 > 详细

优达系列:商业数据分析之为何使用数据可视化

时间:2017-09-23 14:35:37      阅读:158      评论:0      收藏:0      [点我收藏+]

标签:区域   线性   递归   精确   小数点   sel   alt   ble   商业   

概览

为什么要使用数据可视化?通过展示三个例子可以看出数据可视化: 

1、可以迅速区分数据集的趋势类型

2、可以迅速了解数据集内部的对比关系

3、可以在小范围的物理区域展示大量的数据

 


 

例1:安斯库姆四重奏(Anscombe‘s quatet ) 

给定四组表格数据如下:

I (x)I (y)II (x)II (y)III (x)III (y)IV (x)IV (y)
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89

Step 1 基本统计特征

通过计算四组数据的基本统计特征,四组数据具有相同的统计特征,具体统计值如下:

属性
每组 x 的均值9(精确值)
每组 x 的样本方差11(精确值)
每组 y 的均值7.5 (精确到小数点后两位)
每组 y 的样本方差4.122 或 4.127(精确到小数点后三位)
每组 x 和 y 之间的关系0.816 (精确到小数点后三位)
每组的线性递归直线3.00 + 0.500*x(分别精确到小数点后两位和三位)

其中线性回归的拟合优度$R^2$也相同,只看数据本身和基本统计特征值的话,除了第四组中,含有大量相同的x值之外,根本无法看出四组数据有什么不同。那么接下来看看可视化后的效果吧!

Step 2 可视化效果

 技术分享

 数据可视化之后,明显看出四组数据之间的差异,即第二、三、四组的线性趋势明显不对,这就是数据可视化的第一个作用:迅速看出数据集的趋势类型。

注:基本统计特征值无法区分数据集之间的趋势差异,并不代表无法用其他统计量区分数据趋势类型,只是相对构建和计算复杂的统计量来说,数据可视化的时间成本更少。这可能也是为什么“在回归分析中频繁使用散点图看趋势”的原因。

 

优达系列:商业数据分析之为何使用数据可视化

标签:区域   线性   递归   精确   小数点   sel   alt   ble   商业   

原文地址:http://www.cnblogs.com/kyrie9527/p/7580782.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!