码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
基于Windows下eclipse的MapReduce开发环境配置
零. 相关文件 链接:https://pan.baidu.com/s/1KmfZlxevk07p _Aosnsm2w 提取码:df5l 一. MapReduce环境配置 1. 解压hadoop 把hadoop的安装包解压到Windows下(这里的安装包就是你搭hadoop集群时的安装包,我的是 ) ...
分类:Windows程序   时间:2020-03-31 22:40:33    阅读次数:119
hadoop-MapReduce概述
1.MapReduce定义 MapReduce是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架; MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上; 2.MapReduce优缺点 2. ...
分类:其他好文   时间:2020-03-30 16:38:13    阅读次数:83
IDEA,SparkSql读取HIve中的数据
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:数据库   时间:2020-03-30 14:42:50    阅读次数:141
Hive优化
整体架构优化点: 根据不同业务需求进行日期分区, 并执行类型动态分区。 hive.exec.dynamic.partition=true 为了减少磁盘存储空间以及I/O次数, 对数据进行压缩(Gzip) mapreduce.output.fileoutputformat.compress=true ...
分类:其他好文   时间:2020-03-29 19:55:40    阅读次数:105
集群规模计算
一、数据规模 二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包,可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...
分类:其他好文   时间:2020-03-29 12:35:17    阅读次数:225
mapreduce执行job打印的日志聚合
如果两个reduce分别在两台机器上运行,,各自产生的日志,都保存在各自的机器上, 所以要看完整地日志必须开启日志聚合功能yarn-site.xml更改设置 ...
分类:其他好文   时间:2020-03-28 18:06:28    阅读次数:96
Hadoop面试整理
(1)Hadoop1.x和2.x之间的区别 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,在高可用、扩展性等方面存在问题 1)HDFS存在的问题 1.NameNode单点故障,难以应用于在线场景。 2.NameNode压力过大,且内存受限,影响扩展性。 2)MapRedu ...
分类:其他好文   时间:2020-03-28 17:42:52    阅读次数:69
MapReduce(分布式计算)_01
1-MapReduce介绍 2-MapReduce的构思和框架结构 3-MapReduce的编程规范 4-MapReduce案例-wordcount-步骤分析 5-MapReduce案例-wordcount-准备工作 ...
分类:其他好文   时间:2020-03-27 15:33:33    阅读次数:85
WritableComparable(排序)
一:排序概述 排序时是MapReduce框架最重要的操作之一 MapTask和ReduceTask均会对数据按照key进行排序,该操作是属于Hadoop的默认行为。任何应用程序中的数据均会被排序,不管你是否需要。 默认排序是按照字典顺序排序,实现该排序的方法是快速排序 二:排序分类 (1)全排序 只 ...
分类:编程语言   时间:2020-03-22 19:36:50    阅读次数:86
Hive与MapReduce相关排序及自定义UDF函数
原文链接: https://www.toutiao.com/i6770870821809291788/ Hive和mapreduce相关的排序和运行的参数 1.设置每个reduce处理的数据量(单位是字节) 我们在hive中查看下 配置文件hive-site.xml.template 我们打开配置文 ...
分类:编程语言   时间:2020-03-21 00:06:17    阅读次数:85
4057条   上一页 1 ... 17 18 19 20 21 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!