随着大数据时代的来临,数据体量越来越大,处理这些数据会越来越受到网络IO的限制,为了尽可能多的处理更多的数据我们必须使用压缩。那么压缩在Hadoop里面是不是所有格式都适用呢?它都有哪些性能呢?压缩在sqoop里面可以做,在hive和impala里面也可以做。那么什么情况下我们会..
分类:
其他好文 时间:
2017-01-12 03:32:35
阅读次数:
287
思路:读取到一个数据库里所有的表名,然后通过sqoop循环导入到hbase 实现过程中发现 不会写shell是个硬伤 最后只能分两步进行操作 1.sel_tabs.sh /usr/bin/mysql -hIp地址 -u用户名 -p密码 -D数据库名<<EOF use select table_nam ...
分类:
数据库 时间:
2017-01-11 14:20:55
阅读次数:
293
最近一周几乎都在做关于yarn的资源隔离的事情,也重新看了一下以前看过的关于yarn的书,这次就当是写写自己的工作总结吧。之所以要做资源隔离,是因为现在公司内部有很多团队都在使用yarn来提交各式各样的任务,例如hive的mapreduce,spark在yarn上的部署,sqoop导数据等等,为..
分类:
其他好文 时间:
2017-01-09 00:52:37
阅读次数:
1902
一、负责收集数据的工具:Sqoop(关系型数据导入Hadoop)Flume(日志数据导入Hadoop,支持数据源广泛)Kafka(支持数据源有限,但吞吐大) 二、负责存储数据的工具:HBaseMongoDBCassandraAccumulo MySqlOracleDB2 HDFS(Hadoop Di ...
分类:
其他好文 时间:
2017-01-06 00:07:46
阅读次数:
343
Sqoop与HDFS结合 下面我们结合 HDFS,介绍 Sqoop 从关系型数据库的导入和导出。 Sqoop import 它的功能是将数据从关系型数据库导入 HDFS 中,其流程图如下所示。 我们来分析一下 Sqoop 数据导入流程,首先用户输入一个 Sqoop import 命令,Sqoop 会 ...
分类:
其他好文 时间:
2016-12-28 17:15:35
阅读次数:
286
hive一般用来执行离线统计分析相关的功能,然后将执行的结果导入到数据库的表中供前端报表可视化展现来查询。 导回数据库的方式有许多,sqoop、hive jdbc、mr jdbc等等,但是这几种方式都会有一个二次处理环节(数据需要人工)。 这次介绍另外一种处理方式,直接将对数据库的操作集成在udf中 ...
分类:
数据库 时间:
2016-12-27 10:00:04
阅读次数:
802
Sqoop尽管稳定的应用于生产环境很多年,但是它自身存在的一些缺陷给实际操作带来了不便。Sqoop2便成为了研究使用的对象,那么Sqoop2有什么优势呢?首先我们先来了解一下Sqoop的使用情况,使用Sqoop数据不会出现丢失,而且Sqoop功能强大,可以将数据导到HDFS,Hbase,Hive等各种..
分类:
其他好文 时间:
2016-12-26 19:17:33
阅读次数:
129
Flume作为日志采集系统,有着独特的应用和优势,那么Flume在实际的应用和实践中到底是怎样的呢?让我们一起踏上Flume之路。1、什么是ApacheFlume(1)ApacheFlume简单来讲是高性能、分布式的日志采集系统,和sqoop同属于数据采集系统组件,但是sqoop用来采集关系型数据库数据,..
分类:
Web程序 时间:
2016-12-22 20:51:32
阅读次数:
210
初识Storm 1.storm有一个分支,则这个分支一个事jstorm,这个是阿里巴巴将要开源的2.离线计算:批量获取数据,批量传输数据代表技术:Sqoop批量导入数据,HDFS批量存储数据,MapReduce批量计算数据大量消耗hive,消耗大量SQL语句主要工作量:1.hivesql(工作量较多 ...
分类:
其他好文 时间:
2016-12-20 07:42:09
阅读次数:
121
Sqoop作为数据传输的工具,对于Hadoop与传统数据库之间数据的传输起着桥梁作用,那么到底如何导入导出数据呢?第一:使用MapReduce作业来执行导入:(1)Sqoop首先检查将要导入的表1、确定主键(如果有的话),调用mapreduce,根据主键分割map2、没有主键,运行边界查询确定导..
分类:
数据库 时间:
2016-12-19 14:46:32
阅读次数:
172