1.Hadoop平台: 1.理论概念:结构组成: 1. HDFS分布式文统.2.MapReduce计算大数据. 3Yarn任务调度与资源管理. 2. 伪分布式环境搭建: 网络配置: 配置网卡信息: vi /etc/sysconfig/network 配置主机的虚拟域名: vi /etc/hosts ...
分类:
其他好文 时间:
2020-06-21 11:26:51
阅读次数:
96
? 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Had ...
分类:
其他好文 时间:
2020-06-20 23:54:38
阅读次数:
100
脚本通过ssh检查大数据环境中各节点的相关实例是否运行正常,包括:zk、hadoop-ha、hdfs、yarn、hbase、hive-metastore、hiveserver2、kafka。 注意修改成自己的集群节点名称及kafka版本 #!/bin/bash # 定义机器名前缀 HN_PREFIX ...
分类:
系统相关 时间:
2020-06-20 16:44:49
阅读次数:
68
1 hadoop 在虚拟机上的安装与配置 下载地址 http://archive.cloudera.com/cdh5/cdh/5/ 演示的下载包 http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz 下载解压 环境c ...
分类:
其他好文 时间:
2020-06-20 00:48:56
阅读次数:
63
Hadoop+Hive+Zookeeper+hbase+kylin环境搭建说明
分类:
其他好文 时间:
2020-06-18 16:08:02
阅读次数:
58
1、HDFS(Hadoop Distributed File System)是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。它的核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息 ...
分类:
其他好文 时间:
2020-06-18 14:33:17
阅读次数:
67
最近学习大数据相关的知识,便于对学习知识进行整理记忆,特将学习过程中的一些内容记录于此。 本地环境: Linux系统:Centos 7(最小安装) 内存:4G CPU: 2 网卡:2(IP:10.0.2.5、192.168.56.200) JDK版本:1.8 Hadoop版本:3.2.1 一、虚拟机 ...
分类:
其他好文 时间:
2020-06-18 12:38:35
阅读次数:
45
zookeeper简介: ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目 ...
分类:
其他好文 时间:
2020-06-17 09:16:36
阅读次数:
76
1,在hdfs-site.xml 中配置多目录,提前配置好,以免以后要配置时,需要重启集群。 2,namenode 有一个工作线程池,用来处理不同的datanode的并发心跳和客户端访问并发请求。配置dfs.namenode.handler.count=20 * log2(Cluster Size) ...
分类:
其他好文 时间:
2020-06-16 13:33:15
阅读次数:
64
1,如果预聚合不影响最终结果,可以使用conbine,提前对数据聚合,减少数据量。 2,使用2次mr的方式。第一次mr,在map输出是给key加上一个前缀,则可以把相同的key分配到不同的reduce聚合,可以实现同一个key数据量大的问题;第二次mr对把第一次mr输出的数据的key去掉前缀,在聚合 ...
分类:
其他好文 时间:
2020-06-16 13:24:44
阅读次数:
54