今天我们课上做了一个关于数据清洗的实验,具体实验内容如下: 1.数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中; 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎 ...
分类:
其他好文 时间:
2019-11-14 00:16:22
阅读次数:
133
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:
其他好文 时间:
2019-11-14 00:02:36
阅读次数:
80
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 ...
分类:
数据库 时间:
2019-11-14 00:02:19
阅读次数:
222
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...
分类:
其他好文 时间:
2019-11-13 22:12:52
阅读次数:
117
为了测试MapReduce提交的详细流程。需要在提交这一步打上断点: F7进入方法: 进入submit方法: 注意这个connect方法,它在连接谁呢?我们知道,Driver是作为客户端存在的,那么客户端连接的应该就是Yarn集群,但是在这个简单的WordCount案例中,并没有将任务提交到Yarn ...
分类:
其他好文 时间:
2019-11-13 22:01:42
阅读次数:
85
MapReduce默认分区策略 mapreduce 默认的分区方式是hashPartition,在这种分区方式下,KV对根据key的hashcode值与reduceTask个数进行取模,决定该键值对该要访问哪个ReduceTask。 以下就是Hadoop MapReduce中对于默认分区的源码 1. ...
分类:
其他好文 时间:
2019-11-11 21:34:13
阅读次数:
113
5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式 HDFS和MapReduce是针对大文件优化的存储文本记录,不适合二进制类型的数据。SequenceFile作为小文件的容器,SequenceFile类型将小文件包装起来,可以获得更高效率的存储和处理。sequenceF ...
分类:
编程语言 时间:
2019-11-08 09:24:43
阅读次数:
101
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 主要由Split、Map、Partition、Sort、Combine(需要自己写)、Merge、Reduce组成,一般来说Split、Partition、Sort、Merge不需要工程师编程但是可以改写,主要是写出Map ...
分类:
其他好文 时间:
2019-11-05 21:40:23
阅读次数:
96
[Toc] 0. Yarn的来源 ? hadoop 1.x的时代,并没有Yarn,hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生,组件包含HDFS,MapReduce和Yarn。 ? 诞生原因:hadoop 1.x存在的最大问题就是资源管理问题。技术 ...
分类:
其他好文 时间:
2019-11-04 15:11:45
阅读次数:
135