Hadoop fs 命令分类: 1、本地-》HDFS: put(从本地文件系统中复制单个或多个源路径到目标文件系统) hadoop fs -put localfile /user/hadoop/hadoopfile copyFromLocal(和put命令相似) hadoop fs -copyFro ...
分类:
系统相关 时间:
2020-06-02 22:55:20
阅读次数:
78
唯一原则 ? 由于在HBase中数据存储是Key-Value形式,若HBase中同一表插入相同Rowkey,则原先的数据会被覆盖掉(如果表的version设置为1的话),所以务必保证Rowkey的唯一性 长度原则 ? Rowkey是一个二进制码流,Rowkey的长度建议设计在10~100个字节,不过 ...
分类:
其他好文 时间:
2020-06-02 18:38:52
阅读次数:
55
hbase在创建表的时候,一开始只有一个Region,当数据量越来越大时,此region不能承受数据量,就会进行split 这种方式有两种缺点:1.数据往一个region上写,会有写热点问题 2.region split会消耗宝贵的集群I/O资源 所以引入了预分区概念。 https://blog.c ...
分类:
其他好文 时间:
2020-06-02 11:27:42
阅读次数:
69
一、HDFS优缺点 优点: 高容错性 数据自动保存多个副本 某一个副本丢失后,它可以自动恢复 适合处理大数据 数据规模,可以达到PB级 文件规模,能够处理百万规模的文件数量 可构建在廉价机器上,通过多副本保证可靠性 缺点: 不适合低延时数据访问 不适合对大量小文件进行存储 存储大量小文件,他会占用N ...
分类:
其他好文 时间:
2020-06-01 23:45:55
阅读次数:
68
第一章、phoenix入门简介 1. Phoenix定义 Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目。 Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据 ...
分类:
其他好文 时间:
2020-06-01 18:05:21
阅读次数:
103
1.在NameNode的一个节点下执行以下命令 #!/bin/bash for i in 192.168.1.101 192.168.1.102 192.168.1.103 do ssh $i "source /etc/profile;source ~/.bash_profile;/home/abb ...
分类:
其他好文 时间:
2020-06-01 13:34:08
阅读次数:
62
一、引言 1、 简介 Avro是Hadoop中的一个子项目,也是Apache中一个独立的项目,Avro是一个基于二进制数据传输高性能的中间件。在Hadoop的其他项目中例如HBase(Ref)和Hive(Ref)的Client端与服务端的数据传输也采用了这个工具。Avro是一个数据序列化的系统,可以 ...
分类:
Web程序 时间:
2020-05-31 22:07:53
阅读次数:
125
1.1、概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等 1.2、sqoop1与 ...
分类:
其他好文 时间:
2020-05-31 19:30:40
阅读次数:
69
Spring Boot版本v1.5.19.RELEASE 1、增加Jar <dependency> <groupId>com.spring4all</groupId> <artifactId>spring-boot-starter-hbase</artifactId> <version>1.0.0. ...
分类:
编程语言 时间:
2020-05-31 16:23:21
阅读次数:
63
Spark提供的主要抽象是resilient distributed dataset(RDD) 弹性分布式数据集,它是跨集群节点划分的元素的集合,可以并行操作。通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或驱动程序中现有的Scala集合开始并进行转换来创建RDD。用户还 ...
分类:
编程语言 时间:
2020-05-31 16:03:22
阅读次数:
92