码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
马云说:我们正从IT进入DT时代
IT,英文Information Technology的缩写,即信息技术。信息技术是一项基于计算机和互联网,用来提升人们信息传播能力的技术。 DT,英文是Data Technology的缩写,即数据技术。是对数据进行存储、清洗、加工、分析、挖掘,从数据中发掘规律的技术。DT让我们能够借助计算机的计算 ...
分类:其他好文   时间:2020-05-12 11:53:41    阅读次数:69
数据分析技能点梳理
在这个高速发展的互联网时代,我们每天因为社交、购物、工作、交通等等行为会产生巨量的数据,数据正在变得越来越常见,但其实这些看似毫无作用的数据,其实有着不可估量的价值,那如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化呢?今 ...
分类:其他好文   时间:2020-05-12 09:54:18    阅读次数:74
python爬虫-Re正则表达式介绍和实际应用
0、前言 我们知道每个语言都有自己的内建函数来对字符串进行处理。通过这些内建函数我们可以对字符串进行一些简单的处理,从而达到数据清洗等目的。在Python中有index()——定位、 find()——查找、split()——分隔、 count()——计数、 replace()——替换等。但这些方法都 ...
分类:编程语言   时间:2020-05-10 00:56:56    阅读次数:81
HBase与Hive
二者对比 1.Hive 数据仓库:本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系,以方便用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写的HQL语句终 ...
分类:其他好文   时间:2020-05-09 01:23:51    阅读次数:63
Pandas详解
Pandas详解 Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。 1、安装包 pip install pandas 2、数据结构 Pandas有三大数据结构,Series、DataFrame以及Pan ...
分类:其他好文   时间:2020-05-09 00:32:44    阅读次数:78
pandas数据缺失处理
一 前言 数据分析中对数据的清洗是个比较重要的工作,如果处理不当会造成数据分析错误,故学习好相关数据清洗知识很有必要。知识追寻者忙于学习其它知识,有点懈怠了python, 努力补救中。 公众号: 知识追寻者 知识追寻者(Inheriting the spirit of open source, Sp ...
分类:其他好文   时间:2020-05-07 15:50:11    阅读次数:59
数据可视化之PowerQuery篇(五)PowerQuery文本处理技巧:移除和提取
https://zhuanlan.zhihu.com/p/64419762 每当拿到原始数据,不如意十有八九,快速准确的清洗数据也是必备技能,数据清洗正好是 PowerQuery 的强项,本文就来介绍两个常用的 M 函数:Text.Remove 和 Text.Select。 看到以 Text 开头的 ...
分类:其他好文   时间:2020-05-07 15:25:07    阅读次数:267
数据预处理
数据预处理的主要内容包括数据清洗、数据集成、数据变换、数据规约。 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值和异常值。 数据质量分析是检查数据中是否存在一些脏数据,例如:缺失值、异常值和不一致的值等。 数据缺失有很多原因,例如数据无法获得 ...
分类:其他好文   时间:2020-05-03 16:39:32    阅读次数:136
数据分析实战——05丨Python科学计算:Pandas
Pandas 可以对数据进行导入、清洗、处理、统计和输出 在 NumPy 中数据结构是围绕 ndarray 展开的 那么在 Pandas 中的Series 和 DataFrame 这两个核心数据结构,他们分别代表着一维的序列和二维的表结构 Series 是个定长的字典序列 说是定长是因为在存储的时候 ...
分类:编程语言   时间:2020-04-30 11:54:00    阅读次数:124
python数据分析学习(8)数据清洗与准备(2)
上个一篇博客讲解了如何进行数据的缺失值处理,本篇就来讲解一下如何进行数据转换的一系列操作。 一:删除重复值 由于各种原因,DataFrame中会出现重复行,如下: 用duplicated方法可以返回一个布尔值Series,找出每一行是否有重复情况。 而drop_duplicates返回的是DataF ...
分类:编程语言   时间:2020-04-26 21:16:56    阅读次数:98
781条   上一页 1 ... 5 6 7 8 9 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!