1.1 MapReduce定义 1.2 MapReduce优缺点 1.2.1 优点 1.2.2 缺点 1.3 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不 ...
分类:
其他好文 时间:
2020-07-26 19:40:01
阅读次数:
67
4 大数据技术之Hadoop(HDFS) 第1章 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HDFS组成架构 1.4 HDFS文件块大小(面试重点) 第2章 HDFS的Shell操作(开发重点) 1.基本语法 bin/hadoop fs 具体命令 OR bin/h ...
分类:
其他好文 时间:
2020-07-26 19:35:03
阅读次数:
94
1. 简要介绍 HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可 ...
分类:
其他好文 时间:
2020-07-26 01:59:15
阅读次数:
89
4 开启 Reduce 输出阶段压缩 当 Hive 将 输 出 写 入 到 表 中 时 , 输 出 内 容 同 样 可 以 进 行 压 缩 。 属 性hive.exec.compress.output 控制着这个功能。用户可能需要保持默认设置文件中的默认值 false, 这样默认的输出就是非压缩的纯 ...
分类:
其他好文 时间:
2020-07-24 21:30:31
阅读次数:
69
分布式系统分布式系统从当初的CORBA到EJB,Web和SOA,从集群到现在的NoSQL云计算和大数据Hadoop等分布式系统,横向水平扩展Scalaout/in是分布式系统设计的一个特点,可靠性容错性是两个质量指标。什么是分布式系统?一大批服务器组成一个集合,对于用户来说仍然是一个整体连贯系统。A.Tanenbaum定义:分布式网络的计算机中的组件之间协调动作是通过消息进行通讯。G.Coulou
分类:
其他好文 时间:
2020-07-24 13:30:07
阅读次数:
93
自己学习Hadoop时,整理的资料,方便以后查看,希望能帮到大家,有什么问题欢迎大家指出 一、Hadoop是什么?其核心又是什么? Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜 ...
分类:
其他好文 时间:
2020-07-23 22:35:14
阅读次数:
65
1 Hadoop 源码编译支持 Snappy 压缩 1.1 资源准备 1.CentOS 联网 配置 CentOS 能连接外网。Linux 虚拟机 ping www.baidu.com 是畅通的 注意:采用 root 角色编译,减少文件夹权限出现问题 2.jar 包准备(hadoop 源码、JDK8 ...
分类:
其他好文 时间:
2020-07-23 22:32:44
阅读次数:
73
namenode1 namenode2 datanode zk zkfc jnn node0001 * * * node0002 * * * * * node0003 * * * node0004 * * 1,两个namenode节点相互免密钥,以完成主备切换 node0002:cd .ssh ss ...
分类:
其他好文 时间:
2020-07-23 01:34:21
阅读次数:
110
1.-help : 输出这个命令的相关参数用法 hadoop fs -help rm (删除的相关用法) 2.-ls : 显示目录信息 hadoop fs -ls / 递归查看 hadoop fs -ls -R / 3.-mkdir: 在hdfs上创建目录 hadoop fs -mkdir -p / ...
分类:
其他好文 时间:
2020-07-22 21:02:50
阅读次数:
82
1 数据导入 1.1 向表中装载数据(Load) 1.语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1, ...
分类:
其他好文 时间:
2020-07-22 20:27:55
阅读次数:
71