码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
MapReduce Shuffle过程的简单理解
Shuffle过程是MapReduce整个工作流程的核心环节。 Shuffle过程是指对Map输出结果进行分区、排序、合并、归并处理后输入Reduce的过程。分为Map端和Reduce端两个部分。 Map端Shuffle过程的理解: 数据经过Map的逻辑处理后,Map将他们输出,由Shuffle进行 ...
分类:其他好文   时间:2019-11-18 15:42:09    阅读次数:65
Hive基础练习一
下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的 ...
分类:其他好文   时间:2019-11-17 20:43:37    阅读次数:82
Mapreduce实例--求平均值
求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 ...
分类:其他好文   时间:2019-11-17 14:44:15    阅读次数:86
MapReduce清洗数据进行可视化
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2、数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎的Top10课程 (traffic) 3、数据可视化:将统计结果倒入MyS ...
分类:其他好文   时间:2019-11-16 23:06:41    阅读次数:71
大数据学习之路
大数据从入门到入土 语言基础:java(Java se,javaweb) Linux 基础:Linux(shell,高并发架构,lucene,solr) 框架学习:Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) ...
分类:其他好文   时间:2019-11-16 21:47:53    阅读次数:107
MapReduce面试题
MapReduce 执行过程分析 第一阶段map 1.map task读取HDFS文件。每个block,启动一个map task。 每个map task按照行读取一个block中的内容,对每一行执行map函数 2.map函数对输入的数据进行拆分split,得到一个数组,组成一个键值对<word, 1 ...
分类:其他好文   时间:2019-11-16 17:28:15    阅读次数:78
Hive的存储和MapReduce处理——数据清洗(Part3)
日期:2019.11.15 博客期:117 星期五 这两天因为有课,其他的课程需要做实验,所以课下都在做其他科目的实验。 不过还是有新的进度的。 我研究了IP到城市的格式转换 1 public class IPUtil { 2 3 public static String getCityInfo(S ...
分类:其他好文   时间:2019-11-15 22:07:01    阅读次数:189
Hadoop之WordCount
求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 ...
分类:其他好文   时间:2019-11-15 12:19:47    阅读次数:77
mapreduce清洗数据
继上篇 MapReduce清洗数据 package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import ...
分类:其他好文   时间:2019-11-14 22:09:54    阅读次数:88
Mapreduce 数据清洗 更改
package test; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util. ...
分类:其他好文   时间:2019-11-14 09:32:06    阅读次数:88
4057条   上一页 1 ... 30 31 32 33 34 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!