第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flum ...
分类:
Web程序 时间:
2020-05-30 19:56:36
阅读次数:
89
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha ...
分类:
其他好文 时间:
2020-05-30 19:42:06
阅读次数:
53
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive ...
分类:
其他好文 时间:
2020-05-30 19:36:05
阅读次数:
56
1、HBase安装说明 JDK1.7以上 Hadoop-2.5.0以上 Zookeeper-3.4.5 2、Hadoop2.6安装 1) 解压 tar -zxvf hadoop-2.6.0.tar.gz 2) 配置hardoop的jdk cd /root/tools/hadoop-2.6.0/etc ...
分类:
其他好文 时间:
2020-05-30 15:46:42
阅读次数:
67
String的基本特性 String是字符串,使用一对引号("")包装。 String声明是final的,不可被继承。 String实现了Serializable接口,表示字符串是支持序列化的;实现了Comparable接口,表示String可以比较大小。 String在jdk8及以前内部定义了fi ...
分类:
其他好文 时间:
2020-05-30 12:25:11
阅读次数:
64
CDH6.3.2开启Kerberos认证标签(空格分隔):大数据平台构建一:如何安装及配置KDC服务二:如何通过CDH启用Kerberos三:如何登录Kerberos并访问Hadoop相关服务一:如何安装及配置KDC服务1.1系统环境1.操作系统:CentOS7.5x642.CDH6.3.23.采用root用户进行操作1.2KDC服务安装及配置1.在ClouderaManager服务器上安装KDC
分类:
其他好文 时间:
2020-05-30 11:10:46
阅读次数:
263
( 温馨提示:图片中有id有姓名,不要盗用哦,可参考流程,有问题评论区留言哦 ) 一、任务目标 1、了解Hadoop的3种运行模式 2、熟练掌握Hadoop伪分布模式安装流程 3、培养独立完成Hadoop伪分布安装的能力 二、系统环境 Linux Ubuntu 16.04 三、任务内容 在只安装Li ...
分类:
其他好文 时间:
2020-05-30 01:06:25
阅读次数:
168
Hadoop 简介: 两大核心:HDFS+MapReduce Hadoop1.0,Hadoop2.0 Linux:基础 shell,sudo Hadoop集群的部署与使用 先访问nameNode 存储DataNode JobTracker TaskTracker 分布式文件系统 伪分布式:就是吧名称 ...
分类:
其他好文 时间:
2020-05-29 17:44:12
阅读次数:
71
前言 一个简单的理解:把SQL的一些操作应用在hadoop的HDFS上面。 数据库与数据仓库 数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分 ...
分类:
其他好文 时间:
2020-05-28 23:08:21
阅读次数:
62
概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默 ...
分类:
其他好文 时间:
2020-05-28 18:13:32
阅读次数:
84