搜索关键字：hadoop基础，搜索到126个结果！码迷,mamicode.com！

Hadoop基础（三十八）：HDFS HA 高可用（一）

1 HA 概述 1）所谓 HA（High Available），即高可用（7*24 小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制： HDFS 的 HA 和 YARN 的 HA。 3）Hadoop2.0 之前，在 HDFS 集群中 Name ...

分类：其他好文时间：2020-07-21 13:55:58 阅读次数：69

Hadoop基础（三十三）：Zookeeper 分布式安装部署

1．集群规划在 hadoop102、hadoop103 和 hadoop104 三个节点上部署 Zookeeper。 2．解压安装（1）解压 Zookeeper 安装包到/opt/module/目录下 [atguigu@hadoop102 software]$ tar -zxvf zookeep ...

分类：其他好文时间：2020-07-21 01:06:25 阅读次数：87

Hadoop基础（二十一）：Shuffle机制（二）

4 WritableComparable排序 1．排序的分类 2．自定义排序WritableComparable （1）原理分析 bean对象做为key传输，需要实现WritableComparable接口重写compareTo方法，就可以实现排序。 @Override public int com ...

分类：其他好文时间：2020-07-19 23:23:07 阅读次数：67

Hadoop基础（二十二）：Shuffle机制（三）

7 Combiner合并（6）自定义Combiner实现步骤（a）自定义一个Combiner继承Reducer，重写Reduce方法 public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritabl ...

分类：其他好文时间：2020-07-19 23:19:55 阅读次数：69

Hadoop基础（二十三）：MapTask工作机制

MapTask工作机制 MapTask工作机制如图4-12所示。图4-12 MapTask工作机制（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给 ...

分类：其他好文时间：2020-07-19 23:10:43 阅读次数：67

Hadoop基础（二十四）：ReduceTask工作机制

1．ReduceTask工作机制 ReduceTask工作机制，如图4-19所示。图4-19 ReduceTask工作机制（1）Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。（2）Merge ...

分类：其他好文时间：2020-07-19 23:09:27 阅读次数：72

Hadoop基础（十七）：MapReduce框架原理（一）切片机制（一）

1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1．问题引出 MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度。思考：1G的数据，启动8个MapTask，可以提高集群的并发处理能力。那么1K的数据，也启动8个MapTask，会提高 ...

分类：其他好文时间：2020-07-17 09:35:30 阅读次数：65

Hadoop基础（十八）：MapReduce框架原理（二）切片机制（二）

1.5 CombineTextInputFormat案例实操 1．需求将输入的大量小文件合并成一个切片统一处理。（1）输入数据准备4个小文件（2）期望期望一个切片处理4个文件 2．实现过程（1）不做任何处理，运行1.6节的WordCount案例程序，观察切片个数为4。（2）在Wordc ...

分类：其他好文时间：2020-07-17 09:33:01 阅读次数：73

Hadoop基础（五）：基于Ubuntu16搭建Hadoop完全分布式运行模式

0 概述 1）准备3台客户机（关闭防火墙、静态ip、主机名称） 2）安装JDK 3）配置环境变量 4）安装Hadoop 5）配置环境变量 6）配置集群 7）单点启动 8）配置ssh 9）群起并测试集群 1 虚拟机准备 1）. 克隆虚拟机 2）. 修改克隆虚拟机的静态IP 3）. 修改主机名 4）. ...

分类：系统相关时间：2020-07-12 22:11:59 阅读次数：88

Hadoop基础（二）：从Hadoop框架讨论大数据生态

1 Hadoop是什么 2 Hadoop三大发行版本 Hadoop三大发行版本：Apache、Cloudera、Hortonworks。 Apache版本最原始（最基础）的版本，对于入门学习最好。 Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。 Apache Hado ...

分类：其他好文时间：2020-07-12 00:59:06 阅读次数：92

共126条上一页 1 2 3 4 ... 13 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)