码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
mapreduce课上实验
今天我们课上做了一个关于数据清洗的实验,具体实验内容如下: 1.数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中; 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎 ...
分类:其他好文   时间:2019-11-14 00:16:22    阅读次数:133
2017 级课堂测试试卷—数据清洗进度记录
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:其他好文   时间:2019-11-14 00:02:36    阅读次数:80
MapReduce数据清洗及Hive数据库操作
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 ...
分类:数据库   时间:2019-11-14 00:02:19    阅读次数:222
数据清洗与数据处理
package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...
分类:其他好文   时间:2019-11-13 22:12:52    阅读次数:117
MapReduce任务提交源码分析
为了测试MapReduce提交的详细流程。需要在提交这一步打上断点: F7进入方法: 进入submit方法: 注意这个connect方法,它在连接谁呢?我们知道,Driver是作为客户端存在的,那么客户端连接的应该就是Yarn集群,但是在这个简单的WordCount案例中,并没有将任务提交到Yarn ...
分类:其他好文   时间:2019-11-13 22:01:42    阅读次数:85
关于MapReduce默认分区策略
MapReduce默认分区策略 mapreduce 默认的分区方式是hashPartition,在这种分区方式下,KV对根据key的hashcode值与reduceTask个数进行取模,决定该键值对该要访问哪个ReduceTask。 以下就是Hadoop MapReduce中对于默认分区的源码 1. ...
分类:其他好文   时间:2019-11-11 21:34:13    阅读次数:113
MapReduce单词统计
MapReduce单词统计
分类:其他好文   时间:2019-11-10 21:05:40    阅读次数:93
5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式
5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式 HDFS和MapReduce是针对大文件优化的存储文本记录,不适合二进制类型的数据。SequenceFile作为小文件的容器,SequenceFile类型将小文件包装起来,可以获得更高效率的存储和处理。sequenceF ...
分类:编程语言   时间:2019-11-08 09:24:43    阅读次数:101
MapReduce基本认识
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 主要由Split、Map、Partition、Sort、Combine(需要自己写)、Merge、Reduce组成,一般来说Split、Partition、Sort、Merge不需要工程师编程但是可以改写,主要是写出Map ...
分类:其他好文   时间:2019-11-05 21:40:23    阅读次数:96
Hadoop系列(八)Hadoop三大核心之Yarn-资源调度初探
[Toc] 0. Yarn的来源 ? hadoop 1.x的时代,并没有Yarn,hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生,组件包含HDFS,MapReduce和Yarn。 ? 诞生原因:hadoop 1.x存在的最大问题就是资源管理问题。技术 ...
分类:其他好文   时间:2019-11-04 15:11:45    阅读次数:135
4057条   上一页 1 ... 31 32 33 34 35 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!