标签:tsv main 行数据 压力 创建 大量 home base port
将本地数据导入到HBase中
BulkLoad会将tsv/csv格式的文件编程hfile文件,然后再进行数据的导入,这样可以避免大量数据导入时造成的集群写入压力过大。
1、tsv格式的文件:字段之间以制表符\t分割 2、csv格式的文件:字段之间以逗号,分割
$ export HBASE_HOME=/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/ $ export HADOOP_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6 $ export HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase mapredcp`
$ bin/hbase shell hbase(main):001:0> create ‘fruit_bulkload‘,‘info‘
$ /opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/bin/yarn jar /opt/modules/cdh/hbase-0.98.6-cdh5.3.6/lib/hbase-server-0.98.6-cdh5.3.6.jar importtsv -Dimporttsv.bulk.output=/output_file -Dimporttsv.columns=HBASE_ROW_KEY,info:name,info:color fruit hdfs://hadoop-senior01.itguigu.com:8020/input_fruit
上一步完成之后,你会发现在HDFS的根目录下出现了一个output_file文件夹,里面存放的就是HFile文件,紧接着:把HFile导入到HBase表fruit_bulkload
$ /opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/bin/yarn jar /opt/modules/cdh/hbase-0.98.6-cdh5.3.6/lib/hbase-server-0.98.6-cdh5.3.6.jar completebulkload /output_file fruit_bulkload
hbase(main):001:0> scan ‘fruit_bulkload’
标签:tsv main 行数据 压力 创建 大量 home base port
原文地址:https://www.cnblogs.com/alexzhang92/p/10938820.html