标签:开始 数据分布 src 密度 面积 关心 重复 add 图表
视觉暗示、坐标系、标尺、背景信息
流程图
数据是直接的,每个分类都有一个值。可以使用条形图和符号图,特点对比
图表类型 |
优势 |
劣势 |
条形图 |
长度作视觉暗示,分类间的差异明显 |
每个矩形都要从零坐标开始 只能横向或向上径直延伸 |
符号图 |
面积做视觉暗示,难以区分细微差别 可以在二维空间以任何方式组织图形 |
便于展示差异数量级较大的数据 |
饼图:角度做视觉暗示,总和为100%,不适用于分类较多的情况
堆叠条形图:通常用于显示投票结果,也可用于原始计数
用于有层次的数据
树图:紧凑的空间显示层次结构,通常面积和颜色结合使用
马赛克图:允许在一个视图中进行跨分类比较
回归到数据:分类数据可以很直观的看到数据集的范围、分布情况、再看结构和模式,如果一些分类有着同样或差异很大的值,要分析原因
条形图:对离散的时间点很有用,关注数值,更容易区分变化
折线图:通过方向这一视觉暗示更注重变化趋势的体现
散点图:重点在数值上,趋势不是那么明显,尤其在数据量小的时候,可以用线连接起来显示趋势(散点图可以使用LOESS拟合曲线)
点线图:相对条形图,更聚焦于端点
径向分布图:与折线图类似,但是围成一圈
日历:对于星期周期模式比其他图看起来更方便
存在数据循环重复的情况下,比较每个周期同一天的数据就有意义了。
折线图:可以把日子按循环周期分成段,用多条重叠的折线比较循环情况
星状图:也可使用星状图圆周表示时间循环,多条层叠的折线圈表现循环情况
日历热区图:便于从所有角度观察数据,容易找到数值对应的日期,但颜色作为视觉暗示难以区分较小的数据差异
回归到数据:时序数据注重随时间推移发生的变化,比发现变化更重要的是发现变化背后的意义。
注:LOESS曲线法拟合曲线,可用于散点拟合为类似正太分布
位置图:只关心单个位置的数据信息,可以在地图上画点,气泡大小表示数值
联系图:表现不同地点之间的关系
等值区域图:在空间背景信息中可视化区域数据,使用颜色作为视觉暗示,不同区域根据数据填充颜色
等高线图:线条表明地理分布数据的连续性,使用了密度
圆形统计图:整个地区依据数据用形状表示大小,而不考虑改地区实际大小,地理学的面积和边界将完全不存在
基于扩散的统计图:保留地理学区域边界,但将边界延长,使区域面积与数据对等
地图:绘制地图(实际区域比例),尤其是等值区域图时,大面积的区域总是得到更多的注意,无论数据量如何
统计图:延长了区域边界,使区域的边界与数值保持一致,但缺点是地理精度不够
回归到数据:了解数据范围,然后寻找数据的区域模式,结合区域隐含的信息分析数据在不同区域的表现
两个变量:横纵坐标表示两个变量的散点图,可以体现两变量间的相关性
三个变量:引入新的视觉暗示,面积或颜色,表示第三个变量
四个变量:同时引入面积和颜色,表示不同的变量,但已经不易理解
热区图:表格布局,所有行表示同一变量的不同取值,每列代表各不相同的变量,颜色代表数值
平行坐标图:每个纵坐标代表一个变量,取值最小值在底端,最大值在顶端,根据每个变量的位置从左向右画线。如果所有变量正相关则所有线都是笔直的;如果两个变量负相关则一个变量的顶端与另一个变量的底端相连
星状图:更关注个体多变量取值的情况,可使用一组星状图,每个星状图表示一个个体
什么是多视角:多元变量的情况也可以在不同维度上绘制很多同类图表,可以从不同的角度查看数据,效果更好。
可参考的多视角方法:
寻找数据间关系时,可以把所有数据同时可视化,也可以从更简单直观的视角出发。两个变量的关系简单易懂,变量数量增多关系变得复杂。
研究时不要进行假设,记住数据中没有包含的变量可能带来变化
相关性和因果关系:要考虑所有背景信息,然后在指定因果关系
中位数:(中间的线)代表中位数
下四分位数:表示有1/4的数值低于该数值
上四分位数:表示有1/4的数值高于该数值。
四分位间距:上四分位数和下四分位数之间的范围被称为四分位间距
边界:上/下限边界分别有下四分位数减去/加上3/2个四分位间距来确定
异常值:如果最大值和最小值都在上下限内,那么绘制边界线只是为了确定范围。否则,所有上下限外的点都会被视为异常值
可视化工具探索数据分布时要分析峰值、谷值、数据范围以及数据的分布情况。不只是平均数和中位数。原始数据的诗句分析和概要统计间的变化也更有价值。
建立视觉层次
增强图表可读性
高亮显示重点内容
注解可视化表达了什么
从不同角度做一些计算
可视化的常见错误
读者不同,数据展示也不同
需要注意的事项
可视化步骤整合
标签:开始 数据分布 src 密度 面积 关心 重复 add 图表
原文地址:http://www.cnblogs.com/zs-note/p/7444276.html