从源头上解决,在上传到HDFS之前,就将多个小文件归档 使用tar命令 带上参数-zcvf 示例: tar -zcvf xxx.tar.gz 小文件列表 如果小文件已经上传到HDFS了,可以使用在线归档 使用hadoop archive命令 示例: hadoop archive -archiveNa ...
分类:
其他好文 时间:
2020-07-11 17:00:14
阅读次数:
76
Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的 存储HDFS,查询MapReduce 优势 解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理 充分利用集群的CPU计算资源,存储资源,实现并行计算 Hive支持标准的SQL语法,免去了编写 ...
分类:
其他好文 时间:
2020-07-10 19:33:44
阅读次数:
77
cat hadoop-env.sh export HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08" cat yarn-env.sh YARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08" cat hbase-env ...
分类:
其他好文 时间:
2020-07-10 19:26:31
阅读次数:
86
集群启动顺序: NameNode启动 NameNode启动时,首先将镜像文件(Fsimage)载入内存,并执行编辑日志(Edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,NameNode开始监听DataNode请求。这个过程 ...
分类:
其他好文 时间:
2020-07-10 00:43:16
阅读次数:
97
package com.baway.loginfaildetect import java.util import org.apache.flink.cep.PatternSelectFunctionimport org.apache.flink.cep.scala.{CEP, PatternStr ...
分类:
其他好文 时间:
2020-07-10 00:15:34
阅读次数:
92
package com.sjw.hbase; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org ...
承接上一篇,NoSQL实验 MapReduce实验 如何在Eclipse中运行MapReduce程序,参考厦大数据库实验室博客 总体代码: package org.apache.hadoop.examples; import java.io.IOException; import java.util ...
分类:
其他好文 时间:
2020-07-09 15:08:03
阅读次数:
127
@ 单点启动 如果集群是第一次启动,需要格式化NameNode hadoop namenode -format 在某一台机器上启动NameNode节点 hadoop-daemon.sh start namenode 在其他机器上启动DataNode节点 hadoop-daemon.sh start ...
分类:
其他好文 时间:
2020-07-09 00:37:06
阅读次数:
119
问题出在了我多次格式化导致namenode启动不了这时候就需要删除原目录,即core-site.xml下配置的hadoop.tmp.dir所指向的目录,重新建立配置的空目录 格式化namdenode,hadoop namenode -format再重新运行start-all.sh启动成功后再jps测 ...
分类:
其他好文 时间:
2020-07-08 13:26:55
阅读次数:
65