数据挖掘——统计学分析（一：数据的整理与图示表示）

时间：2018-10-02 17:42:19 阅读：346 评论：0 收藏：0 [点我收藏+]

标签：xfs knn 方便 zfs c++ pms oal rvm imu

数据预处理

1、数据审核：检查数据中是否有错误

原始数据->完整性：所调查的对象是否有遗漏。

准确性:数据是否有错误、存在异常值

->异常值：记录错误，予以纠正；正确地值，予以保留。

二手数据->适用性：明确数据的来源、口径、背景材料，以便确定数据是否符合分析研究的需要。

时效性:对于时效性较强的问题，如果数据是滞后的对于研究就没有多大的意义。

2、数据筛选

工具：excel、spss，网上资料很多，这里不再赘述。

3、数据排序

1)按一定顺序排序，以便发现明显的特征或趋势；

2)利于数据的纠错、重新归类、分组。

品质数据的整理与展示

预处理后的数据，需进一步做分类、分组。

品质数据：分类数据、顺序数据

1、分类数据的整理与图示

分类数据：对事物的一种分类

整理：列出所分的类别，计算出每一类别的频数、频率或比例、比率，制作频数分布表。

目的：对数据及其特征进行初步地了解

工具：excel、spss前期的数据分析，这些工具已经很智能了！

图示：条形图、帕累托图、饼图、环形图

2、顺序数据的整理与图示

顺序数据：【转至百度百科】

https://baike.baidu.com/item/%E9%A1%BA%E5%BA%8F%E6%95%B0%E6%8D%AE/9210375?fr=aladdin

整理：列出所分的类别，计算出每一类别的频数、频率或比例、比率，制作频数分布表；还可计算累计频率（或频数）

目的：对数据及其特征进行初步地了解

工具：excel、spss前期的数据分析，这些工具已经很智能了！

图示：条形图、帕累托图、饼图、环形图、累计频数分布图或频率图。

数值数据的整理与展示

数值型的数据除了可以用品质数据的整理和图示方法外，还有一些特殊的方法。

1、数据的分组：观察数据的分布特征

单变量值分组：适用于离散变量，其变量值较少。

组距分组：适用于连续性型变量，其变量值较多。

ex：分组方法及其制表过程

step1:确定组数。组数的确定主要是用于数据特征的观测，因此具体需视其数据特征而定。

step2:确定各组的组距。组距=组的上限-组的下限。组距的确定：（全部数据的上限-全部数据的下限）/组数

step3:根据分组整理成频数分布表。

2、数值型数据的图示

分组数据：直方图

未分组数据：茎叶图、箱线图

茎叶图：反映原始数据分布形状、离散状况（是否对称、集中、存在离群点）

工具：excel、spss都很方便

箱线图：由一组数据的的最大值、最小值、中位数、两个四分位数

时间序列数据——线图：反映随时间变化的特征

多变量数据的图示：散点图、气泡图、雷达图

散点图：2个变量之间的关系的刻画

气泡图：3个变量之间的关系的刻画

雷达图：多个变量之间的关系的刻画

工具：excel、spss都很方便

数据挖掘——统计学分析（一：数据的整理与图示表示）

标签：xfs knn 方便 zfs c++ pms oal rvm imu

原文地址：https://www.cnblogs.com/Erma/p/9736479.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行