前提补充 Q:为什么要三台服务器 A: 1.当数据量超过我们单台服务器的存储能力 2.当我们的运算量大于了单台服务器的运算量时(运算能力) 解决存储能力 Q:服务器间的管理,解决海量数据的存储 A:分布式文件系统HDFS 解决运算能力 Q:解决资源调度:教练让去打比赛 A:任务资源调度的集群YARN ...
分类:
其他好文 时间:
2020-04-19 12:28:14
阅读次数:
72
安装前准备: 首先,要有一个HDFS集群,并正常运行; regionserver应该跟hdfs中的datanode在一起 其次,还需要一个zookeeper集群,并正常运行 然后,安装HBASE 开始安装hbase集群 1.解压安装包 tar -zvxf hbase-1.2.1-bin.tar.gz ...
分类:
其他好文 时间:
2020-04-18 18:35:01
阅读次数:
74
如何对NameNode中数据持久化 FsImage:保存NameNode当前这一时刻数据状态 Editslog:日志文件,只记录client到hdfs写操作(二进制文件) Editslog和FsImage会定期合并,这项任务由SecondNameNode执行,当在合并的时候,客户端执行的写操作不再写 ...
分类:
其他好文 时间:
2020-04-18 12:14:46
阅读次数:
64
单节点NameNode存在问题: NameNode宕机,metadata数据消失; 单节点出现故障,如何进行故障转移? 如果增加一个NameNode节点,会出现脑裂问题(一个集群有多个管理者),如何解决? ZK搭建高可用(HA High Aliavble)HDFS集群 原理 QJM(Quorum J ...
分类:
其他好文 时间:
2020-04-17 20:34:00
阅读次数:
99
有两种模式:cluster 和 driver 区别: cluster 模式:Driver 程序在 YARN 中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如 HDFS、Redis、Mysql)而非 stdout 输出的应用程序,客户端的终端显示的仅是作为 YA ...
分类:
其他好文 时间:
2020-04-17 12:30:05
阅读次数:
70
目的:运行Atlas并使用Azkaban执行操作任务 环境:Centos 6 内存大小:12G 启动下面的任务后还剩内存将近5G 问题: 当mysql_to_hdfs_db和其他job同时运行时集群很容易就会报错 Cannot create GC thread. Out of system reso ...
分类:
其他好文 时间:
2020-04-16 22:28:47
阅读次数:
86
准备工作 需要先安装好Zookeeper集群和Hadoop集群 Zookeeper集群启动 Hadoop集群启动 HBase集群搭建 HBase解压 配置文件 hbase env.sh hbase site.xml regionservers 将hadoop的hdfs site.xml和core s ...
分类:
其他好文 时间:
2020-04-16 19:33:00
阅读次数:
61
windows环境变量增加一项HADOOP_USER_NAME,值为你的Linux用户名。 ...
在Windows操作系统中使用eclipse本地运行hadoop的hdfs程序, FileSystem local = FileSystem.getLocal(conf); 使用 FSDataOutputStream out = local.create(localFile); 创建本地文件输出流时 ...
1.hadoop对hdfs集群的管理提供两种脚本 hadoop-daemons.sh 本地启动脚本:对集群中的单个节点操作 start-dfs.sh 集群启动脚本:对集群中所有节点统一操作 2.SSH免密登录(防止集群登录超时) ①生成公私钥 1 ssh-keygen -t rsa 在用户目录下有个 ...
分类:
其他好文 时间:
2020-04-15 13:41:34
阅读次数:
66