码迷,mamicode.com
首页 > 其他好文 > 详细

七周成为数据分析师07_统计学基础

时间:2019-02-20 09:30:43      阅读:217      评论:0      收藏:0      [点我收藏+]

标签:img   重点   panda   art   dev   python   意义   笔记   idt   

拿到数据之后,我们应该怎么做?

直接套用各种图表公式进行分析并不是一个好做法。因为众多分析思路和公式都是基于数据服从一定分布的前提,如果不了解数据质量和分布情况,做推断分析是事倍功半的。

正确的处理方法是先使用描述统计

 

描述统计学

描述统计学是一种概括数据集的方式,包括数据的加工和显示,数据集的分布特征等。它与推断统计相呼应。

首先把数据分为分类数据和数值数据。二者最显著的区分在于分类数据不可做加减,而数值数据可以。

分类数据主要应用频数统计,对各分类数据进行计数。

数值数据则是描述统计的重点。

 

数据的度量

1. 平均数:平均数容易受到极值的影响,进而“被平均”

2. 中位数:处于数据排序后最中间的数值

3. 众数:众数使用的频次较低,更多用于分类数据中

4. 四分位数:将数据排序后划分为四等分,能辅助衡量数据的分布状态。其中第二四分位数(Q2)即中位数

技术图片

5. 方差:描述数据的离散程度

方差越大,说明数据的波动越大,数据集的离散程度越大。

Excel中,总体方差:VARP(), 样本方差VAR()

技术图片

6. 标准差:方差的开平方

标准差同方差衡量的意义一致,但标准差更容易与平均数等指标进行度量。

Excel 中,总体标准差为:stdevp(),样本标准差为stdev()

技术图片

 

7. 数据标准化 Z-Score

Z-Score是数据标准化的一种,它将一组数据转化为均值为0标准差为1的标准正态分布。

标准化有助于不同量纲间的数据进行比较,和助于清晰展现一组数据间的变化

技术图片

8. 切比雪夫定理

至少有75%的数据,位于[μ-2σ, μ+2σ]内

至少有89%的数据,位于[μ-3σ, μ+3σ]内

至少有96%的数据,位于[μ-5σ, μ+5σ]内

 

 

 

 七周成为数据分析师的课程,还有最后一周属于 Python 相关基础知识。因为个人已经有 Python 基础知识,也已经使用 Python 这门语言一段时间了,就不对它再做一些笔记。

相关的文字资料可以查看:

如何七周成为数据分析师22:用pandas进行数据分析实战

如何七周成为数据分析师21:Python分析之numpy和pandas入门

 

七周成为数据分析师07_统计学基础

标签:img   重点   panda   art   dev   python   意义   笔记   idt   

原文地址:https://www.cnblogs.com/xingyucn/p/10404290.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!