这是个不该踩的坑,被我踩了两天。 启动hbase之后,Hmaster和Hregionserver会自动相继down掉, 于是重新安装了hbase, 但是重新安装hbase之后, 你必须将zookeeper里的/hbase目录和hdfs里的/hbase目录全部删掉! 你必须将zookeeper里的/h ...
分类:
其他好文 时间:
2020-04-05 11:33:59
阅读次数:
83
在Linux上面kettle-spoon启动问题 文件大小限制问题 修改此文件 /etc/security/limits.conf * soft nofile 327680 * hard nofile 327680 hdfs soft nproc 131072 hdfs hard nproc 131 ...
分类:
编程语言 时间:
2020-04-03 15:03:45
阅读次数:
81
Flume定义: Flume是Cloudera提供的一个高可用的、高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构, 灵活简单。 为什么选用Flume 主要作用: 实时读取服务器本地磁盘的数据, 将数据写入到HDFS Flume的组织架构 1、最简单的组织架构 2、Flume ...
分类:
Web程序 时间:
2020-04-02 22:33:57
阅读次数:
107
./bin/hdfs zkfc -formatZK 初始安装时初始化zk,在Zookeeper中创建了路径/hadoop-ha/hacluster ./bin/hdfs haadmin -getServiceState master1 查看主节点的状态,是active还是standby ./bin/ ...
分类:
其他好文 时间:
2020-04-01 19:33:47
阅读次数:
55
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:
其他好文 时间:
2020-04-01 00:56:20
阅读次数:
58
前提 Hive 需要是 2.0以上版本 Tez配置 下载好tar包后,将tar包上传到HDFS集群路径下 hadoop fs -put /opt/software/apache-tez-0.9.1-bin.tar.gz/ /tez 将Linux本机上的tar包解压 Hive配置 在hive/conf ...
分类:
其他好文 时间:
2020-03-31 22:43:48
阅读次数:
632
一、hive中表分为两种 1、内部表(管理表): 删除表的时候删除hdfs上的数据。 2、外部表 删除表的时候不删除hdfs上的数据。 外部表不能使用insert的方式插入数据,所有的数据来源,都是外部别人提供的,所以hive认为自己没有独占这份数据,所以删除hive表的时候,不会删 除表里面的数据 ...
分类:
其他好文 时间:
2020-03-31 19:14:39
阅读次数:
79
为了增强容错性和高可用,避免上游RDD被重复计算的大量时间开销,Spark RDD设计了包含多种存储级别的缓存和持久化机制,主要有三个概念:cache、persist、checkout。 1、存储级别介绍(StorageLevel) 存储级别以一个枚举类StorageLevel定义,分为以下几种: ...
分类:
系统相关 时间:
2020-03-30 12:43:50
阅读次数:
102
本文将通过一个演示工程来快速上手java调用HDFS的常见操作。接下来通过阅读HDFS的源码,一步步展开HDFS相关原理、理论知识的说明。 ...
分类:
编程语言 时间:
2020-03-30 09:49:06
阅读次数:
70
一、数据规模 二、集群处理数据的吞吐量 2.1 hdfs的读写测试 Hadoop自带一个测试用的jar包,可以运行它来得知集群处理数据的性能如何 hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c ...
分类:
其他好文 时间:
2020-03-29 12:35:17
阅读次数:
225