1 介绍 1.1 概念 面向批处理的分布式计算框架 一种编程模型:MapReduce程序被分为Map(映射)阶段和Reduce(化简)阶段 1.2 核心思想 分而治之,并行计算 移动计算,而非移动数据 1.3 特点 计算跟着数据走 良好的扩展性:计算能力随着节点数增加,近似线性递增 高容错 状态监控 ...
分类:
其他好文 时间:
2020-05-07 00:30:19
阅读次数:
80
HBase分布式数据库,面向列存储(准确的说是面向列族),支持实时、随机读写。HDFS 为 Hbase 提供可靠的底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供 稳定服务和Failover机制,因此,Hbase 是一个通过大量廉价 ...
分类:
其他好文 时间:
2020-05-06 01:13:24
阅读次数:
103
一、简介 Hadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。 解决的问题: (1)海量数据的存储 [HDFS] (2)海量数据的分析 [MapReduce] (3)资源管理调度 [YARN] 二、hadoop架构 在其核心,Hadoop ...
分类:
其他好文 时间:
2020-05-03 10:26:41
阅读次数:
66
Hadoop 2.x 集群安装,包括 HDFS 集群、Yarn 集群以及 MapReduce 的安装
分类:
其他好文 时间:
2020-04-29 10:44:59
阅读次数:
76
//使用MapReduce框架完成二次排序 // 主要原理使用组比较器完成排序再规约 // 环境 由于IDEA不会本地提交MR任务转到eclipse //代码如下 package com.swust.mapreduce; import java.io.IOException; import org. ...
分类:
其他好文 时间:
2020-04-27 19:34:20
阅读次数:
80
1.Hadoop的整体框架 Hadoop是由许多元素构成的,最核心的是HDFS(分布式文件系统),它存储了Hadoop集群中所有DataNode文件,HDFS的上一层是MapReduce引擎,MapReduce是一种计算模型,用以进行大数据量的计算。 HDFS HDFS是Hadoop项目的核心子项目 ...
分类:
其他好文 时间:
2020-04-27 13:27:50
阅读次数:
70
1.Fetch抓取 Fetch抓取是,Hive中对某些情况的查询可以不必使用MapReduce计算;例如像select * from table这种的操作,在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台; 在hive-default.xml.te ...
分类:
其他好文 时间:
2020-04-25 15:28:25
阅读次数:
91
Hadoop的官方案例都在mapreduce.jar文件夹中,提供了mapreduce的基本功能,可用于计算,eg:pi值,计算文档中的字数等 官方案例都在 hadoop-mapreduce-examples-2.7.3.jar 这个jar包中。 命令:hadoop jar ./hadoop-2.7 ...
分类:
其他好文 时间:
2020-04-24 01:40:56
阅读次数:
107
import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.mapreduce.TableOutputFormat import org.apache.hadoop.hbase.cli ...
分类:
其他好文 时间:
2020-04-22 09:54:55
阅读次数:
108
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...
分类:
其他好文 时间:
2020-04-22 09:16:07
阅读次数:
55