标签:bsp 分布 顺序 序列 param 个人 集中 rcp 选择
目录:
一、数据预处理:
数据审核
筛选
排序
二、品质数据的整理与展示:
分类数据的整理与展示
顺序数据的分类与展示
三、数值型数据的整理与展示:
数据分组
数据展示
一、数据预处理:
数据的预处理的涵盖范围很广泛,涉及到数据相关行业的工作内容都离不开预处理,不管是做机器学习还是需要做业务相关分析,数据预处理的效果好坏也代表了机器学习结果或业务分析的准确性。
1、数据审核
检查数据中的错误与异常是审核的主要内容。通过反复检查数据是否遗漏空缺,是否存在错误、异常,是否适用于项目场景,是否具有时效性等来核对数据源。
(数据异常并不一定代表该数据值为非法,异常值可能为错误值时应当筛出,异常值为正确值时应当保留)
2、数据筛选
根据需求找出符合条件的数据,如下python实现:
1 #筛选行 2 data.loc[:,[‘A‘]] #取‘A‘列所有行 3 4 data.iloc[:,[0]] #取第0列所有行 5 6 df[1:4]#使用切片操作选择特定的行 7 8 9 #筛选列 10 df[[‘a‘,‘c‘]]#传入列名选择特定的列 11 12 13 14 #筛选值 15 data.loc[[‘a‘,‘b‘],[‘A‘,‘B‘]] #提取index为‘a‘,‘b‘,列名为‘A‘,‘B‘中的数据 16 data.iloc[[0,1],[0,1]] #提取第0、1行,第0、1列中的数据 17 18 #条件筛选 19 data[data.A==100]#找出df中A列值为100的所有数据 20 21 num = [100, 200, 300] 22 df[df.A.isin(num)] #筛选出A列值在num列表的数据条 23 24 data.loc[data[‘A‘]==0] #提取data数据(筛选条件: A列中数字为0所在的行数据) 25 26 data.loc[(data[‘A‘]==0)&(data[‘B‘]==2)] #提取data数据(多个筛选条件) 27 28 data[(data[‘A‘].isin([0]))&(data[‘B‘].isin([2]))] #isin函数
3、数据排序
python中有sort函数用于数据排序
二、品质数据的整理与展示:
1、分类数据的整理与展示
分类数据本身是对事物的一种分类。类似频数分布:是落在某一特定类别或组中的数据个数,把各类别及落在其中的相应频数全部列出并用表格展示称为频数分布。方法如数据透视(pandas中有相应函数方法)、直方图(matplotlib中有相应方法hist)等。
对于定性的数据,除了可以使用频数分布进行描述,也可以使用比例、百分比、比率等统计量进行描述。
数据展示可如下集中图形:
条形图:
帕累托图:rcParams方法
饼图:pie方法
环形图:使用python可实现代码略
2、顺序数据的分类与展示
上述分类数据展示有些情况下也可以用于顺序数据,除此之外还可以利用累计频数、累计频率来展示。
三、数值型数据的整理与展示:
1、数据分组:
根据需求将数据按照相应标准分成不同的组别。
步骤:1、确定组数;2、确定组距;3、根据分组编制频数分布表(采取组距分组需遵循“不重不漏”原则,上组限不在内结局不重问题)
组中值:组距分组掩盖了各组数据分布情况,组中值用来反应各组数据的一般水平。即(上限值+下限值)/2。
2、数据展示:(绘制图形均可使用python库,代码略)
分组数据:直方图
未分组数据:茎叶图、箱线图
时间序列数据:线图
多变量数据:散点图、气泡图、雷达图
这一篇简单介绍数据展示的方法,具体代码实现抽时间写一篇matplotlib的
纯属个人笔记。
标签:bsp 分布 顺序 序列 param 个人 集中 rcp 选择
原文地址:https://www.cnblogs.com/zym-yc/p/11829280.html