数据预处理的主要内容包括数据清洗、数据集成、数据变换、数据规约。 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值和异常值。 数据质量分析是检查数据中是否存在一些脏数据,例如:缺失值、异常值和不一致的值等。 数据缺失有很多原因,例如数据无法获得 ...
分类:
其他好文 时间:
2020-05-03 16:39:32
阅读次数:
136
上个一篇博客讲解了如何进行数据的缺失值处理,本篇就来讲解一下如何进行数据转换的一系列操作。 一:删除重复值 由于各种原因,DataFrame中会出现重复行,如下: 用duplicated方法可以返回一个布尔值Series,找出每一行是否有重复情况。 而drop_duplicates返回的是DataF ...
分类:
编程语言 时间:
2020-04-26 21:16:56
阅读次数:
98
# 在对数据进行分析时,主要细分为明确目标、应用思维和如下8个具体步骤: 1、读取数据 2、清洗数据 3、操作数据 4、转换数据 5、整理数据 6、分析数据 7、展现数据 8、总结报告 接下来将介绍使用python来具体处理数据,包括上面几个步骤的实现,以及给出具体的操作例子。 需要记住的是使用py ...
分类:
其他好文 时间:
2020-04-21 18:14:39
阅读次数:
79
1.分析目的:根据过往电商成交数据进行数据分析发现规律和问题从而指导业务 2.数据 导入库 导入数据 加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布 加载device_type 3.数据清洗 orderId orderId在一个系统里是唯一值 先看下有没有重复值 如 ...
分类:
其他好文 时间:
2020-04-12 10:18:51
阅读次数:
101
在 "前面" 的学习中主要了解了Pandas如何构造序列和数据框,如何读取和写入各种格式的数据,以及如何对数据进行初步描述,本文将进一步了解Pandas如何处理字符串和日期数据,数据清洗,获取数据子集,透视表,分组聚合操作等内容。 4. Pandas处理字符串和日期数据 待处理的数据表 数据处理要求 ...
分类:
编程语言 时间:
2020-04-09 12:58:30
阅读次数:
103
numpy、pandas做数据清洗 numpy、pandas做数据清洗 numpy、pandas空值的清洗 有两种方式 删除空值所在的行数据 将缺失的行或者列进行删除 使用到的数据判断方法: isnull:判断数据是否是为空,如果为空返回True,否则返回False notnull:判断数据是否非空 ...
分类:
其他好文 时间:
2020-04-05 20:09:06
阅读次数:
97
一.主题式网络爬虫设计方案 1.主题式网络爬虫名称:国家数据网不同年份的人口比率 2.主题式网络爬虫爬取的内容:人口出生率死亡率及自然增长率 3.设计方案概述: 实现思路:爬取网站内容,之后分析提取需要的数据,进行数据清洗,之后数据可视化,并计算不同比率的相关系数 技术难点:因为用的是json分析, ...
分类:
其他好文 时间:
2020-04-05 13:55:03
阅读次数:
117
numpy百题冲关,pandas百题冲关numpy后边涉及到矩阵和后期学习到的数学知识的实践https://www.shiyanlou.com/courses/1090/learning/pandas涉及到pandas相关应用、例如数据清洗等内容https://www.shiyanlou.com/c... ...
分类:
其他好文 时间:
2020-04-04 14:24:40
阅读次数:
68
一、大数据预处理的几个步骤 1.数据预处理 2.数据清洗 3.数据集成 4.数据归约 5.数据变换 6.数据离散化 7.大数据预处理 二、数据预处理 现实中的数据大多是“脏”数据: ①不完整 缺少属性值或仅仅包含聚集数据 ②含噪声 包含错误或存在偏离期望的离群值 比如:salary=“-10”,明显 ...
分类:
其他好文 时间:
2020-04-03 22:15:48
阅读次数:
171
流程图如下: 说明: 1: OGG同步表清单 表名 注释 数据量 表大小/GB SH_LOSS_MID.LOSS_YC_MRCJDLDJSJ_CONSGZB 日冻结电量 8900467833 561.39 SH_LOSS.C_METER_MP_RELA 表计关系表 13778340 0.7 SH_L ...
分类:
其他好文 时间:
2020-04-03 12:16:05
阅读次数:
75