搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

01hive基础操作

一. Hive基础概念 1.什么是Hive Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序。 1）Hiv ...

分类：其他好文时间：2020-01-26 11:46:27 阅读次数：96

7.4mapreduce配置调优

1.1.1 配置调优通过调节配置参数，达到较优的性能。Map配置参数属性类型默认值作用 mapreduce.Task.io.sort.mb Int 100 Map输出结果的缓冲区大小兆为单位 mapreduce.map.sort.spill.percent Float 80 缓冲区占用比例 ...

分类：其他好文时间：2020-01-24 16:06:03 阅读次数：91

7.3 Shuffle过程和排序

1.1 Shuffle和排序 Shuffle：系统执行排序，将map输出作为输入传给reduce的过程称为shuffle。 1.1.1 Map端缓存排序输出（1）写入缓冲区：map输出结果先输出到内存缓冲区（默认100M，通过属性mapreduce.Task.io.sort.mb设置）（2） ...

分类：编程语言时间：2020-01-24 15:56:59 阅读次数：78

1 flume基础入门

flume 1.1 Flume定义 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。大数据框架大致分为3类：数据的采集和传输：flume 数据的存储：HDFS 数据的计算：MapReduce 1.2 应用场景 ...

分类：Web程序时间：2020-01-23 12:37:38 阅读次数：103

关于HIVE做MapReduce报错:return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

大部分人没有交换分区的问题。因为在做Linux的时候交换分区是按照内存的2倍来做的。但是我的是用VM快速装机做的。所以交换分区被设置成了等于内存。扩展交换分区：https://blog.csdn.net/Ares_song/article/details/81203251 永久添加该文件：htt ...

分类：Web程序时间：2020-01-22 14:50:26 阅读次数：210

Spark与Hadoop的比较

Spark是一种分布式计算框架，对标Hadoop的MapReduce；MapReduce适用于离线批处理（处理延迟在分钟级）而Spark既可以做离线批处理，也可以做实时处理（SparkStreaming） ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...

分类：其他好文时间：2020-01-21 19:49:30 阅读次数：71

基于 MapReduce 的单词计数（Word Count）的实现

完整代码：运行截图： ...

分类：其他好文时间：2020-01-21 00:52:40 阅读次数：102

Hive基础

Hive基础（一）原创人间怪物最后发布于2018-12-19 15:35:03 阅读数 2918 收藏展开1.Hive是什么 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成为一张数据库表，并提供类SQL的查询功能。可以将sql语句转化为MapReduce任务进行运行。H ...

分类：其他好文时间：2020-01-20 18:44:17 阅读次数：86

Spark Shuffle

Shuffle基本流程 spark shuffle从总体来讲分成两部分，shuffle write和shuffle reader，如下图所示，看到这里，就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle，broadcast好歹还是内存操作，网络上大一点压力（每个节点... ...

分类：其他好文时间：2020-01-19 09:27:09 阅读次数：63

Spark与Hadoop对比

一、运行速度方面： Spark把中间数据放到内存中，迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上，这样会影响整体速度，而Spark支持DAG图的分布式并行计算的编程框架，减少了迭代过程中数据的落地，提高了处理效率。二、容错方面： Spark引进了弹性分布式数据集RDD ...

分类：其他好文时间：2020-01-18 21:41:13 阅读次数：106

共4057条上一页 1 ... 24 25 26 27 28 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)