码迷,mamicode.com
首页 >  
搜索关键字:数据脱敏 datamasker 数据漂白 数据清洗    ( 383个结果
mapreduce课上实验
今天我们课上做了一个关于数据清洗的实验,具体实验内容如下: 1.数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中; 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎 ...
分类:其他好文   时间:2019-11-14 00:16:22    阅读次数:133
2017 级课堂测试试卷—数据清洗进度记录
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:其他好文   时间:2019-11-14 00:02:36    阅读次数:80
MapReduce数据清洗及Hive数据库操作
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 ...
分类:数据库   时间:2019-11-14 00:02:19    阅读次数:222
课堂测试之数据清洗
题目要求: 1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article ...
分类:其他好文   时间:2019-11-13 23:53:43    阅读次数:176
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。
虚拟机: hadoop:3.2.0 hive:3.1.2 win10: eclipse 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: articl ...
分类:数据库   时间:2019-11-13 22:25:39    阅读次数:162
数据清洗与数据处理
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...
分类:其他好文   时间:2019-11-13 22:12:52    阅读次数:117
快速获取最新股票相关数据,并使用数据分析进行数据清洗,获取有效信息
关键性python数据包的安装 pip3 install tushare 关键性python数据包的安装 pip3 install tushare import tushare as ts股票代码为code参数,start为收集该股票数据的开始日期df = ts.get_k_data(code='6 ...
分类:其他好文   时间:2019-11-01 20:56:43    阅读次数:180
python数据分析pandas中的DataFrame数据清洗
pandas中的DataFrame中的空数据处理方法: 方法一:直接删除 1.查看行或列是否有空格(以下的df为DataFrame类型,axis=0,代表列,axis=1代表行,以下的返回值都是行或列索引加上布尔值)? isnull方法 ? 查看行:df.isnull().any(axis=1) ? ...
分类:编程语言   时间:2019-11-01 18:50:42    阅读次数:153
数据清洗
处理缺失值 通过isnull和notnull方法,可以返回布尔值的对象。 这时通过求和可以获取每列的缺失值数量,再通过求和就可以获得整个DataFrame的缺失值数量 侦查缺失值 创建有缺失值的DataFeame 查看缺失值 缺失值计算 通过info()方法查看缺失值 删除缺失值 通过dropna可 ...
分类:其他好文   时间:2019-10-29 00:11:10    阅读次数:109
数据预处理
数据的预处理 数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约. 数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值. 缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理 数据补插方式: ...
分类:其他好文   时间:2019-10-27 12:27:11    阅读次数:83
383条   上一页 1 ... 9 10 11 12 13 ... 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!