序:map客户端使用jdbc向数据库发送查询语句,将会拿到所有数据到map的客户端,安装jdbc的原理,数据全部缓存在内存中,但是内存没有出现爆掉情况,这是因为1.3以后,对jdbc进行了优化,改进jdbc内部原理,将数据写入磁盘存储了。 原文和作者一起讨论: http://www.cnblogs. ...
分类:
其他好文 时间:
2017-04-27 17:02:24
阅读次数:
357
一、概述 sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具。 导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS、 HIVE、 HBASE 等数据存储系统; 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mys ...
分类:
其他好文 时间:
2017-04-20 21:24:59
阅读次数:
294
1.概述本文档主要对SQOOP的使用进行了说明,参考内容主要来自于ClouderaSQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义,本文档几乎所有参数使用说明都经过了我的实际验证而得到。2.codegen将关系数据库表映射为一个java文件、javaclass类、以及相关的jar包,作..
分类:
其他好文 时间:
2017-04-20 17:35:40
阅读次数:
201
sqoopimport--hive-import--hive-overwrite--connectjdbc:oracle:thin:@192.168.92.136:1521:cyporcl--usernameODS--password‘od154DS$!(‘-m1--hive-databaseODS--tableQ_TRA_DISPUTESTATUS--fields-terminated-by‘\001‘--hive-drop-import-delims--null-string‘\\N‘--null-non..
分类:
数据库 时间:
2017-04-20 17:34:44
阅读次数:
523
一、前期准备 1.操作系统版本 # cat /etc/redhat-release CentOS release 6.5 (Final) # uname –aLinux enc-bigdata05 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UT ...
分类:
数据库 时间:
2017-04-18 18:29:00
阅读次数:
908
Ambari 是 Apache Software Foundation 的一个顶级开源项目,是一个集中部署、管理、监控 Hadoop 分布式集群的工具。但是这里的 Hadoop 是一个广义概念,并不仅仅指的是 Hadoop(HDFS、MapReduce),而是指 Hadoop 生态圈(包括 Spar ...
分类:
其他好文 时间:
2017-04-13 19:19:39
阅读次数:
446
使用Sqoop远程连接MySQL导入数据到HBase数据库: 出现了拒绝连接的错误: 把主机名换成IP地址就正常了。 ...
分类:
其他好文 时间:
2017-04-06 01:09:21
阅读次数:
507
FlowBean.java: TopkURLMapper.java: TopkURLReducer.java: TopkURLRunner.java: 将上面的运行结果通过sqoop导入到数据库中,然后通过数据库读取再跑mapreduce程序。 DBLoader.java:数据库的工具类。 LogE ...
分类:
其他好文 时间:
2017-03-29 19:13:27
阅读次数:
289
首先,先明确,为什么Sqoop需要规范的脚本开发呢? 答:是因为,Sqoop import HDFS/Hive/HBase这些都是手动。但是在实际生产里,有时候,需要用脚本来完成。 比如,通过shell脚本来操作对Sqoop、Hive、HBase、MapReduce、HDFS、Spark、Storm ...
分类:
其他好文 时间:
2017-03-18 23:39:24
阅读次数:
4099
1.注意win下直接复制进linux 改一下--等 先看一下有什么数据库,发现有些数据库,能查询到的数据库才能导入,很奇怪。 2.导入到hdfs 那个数据库 端口号 账户名 密码 那个表 不需要加上驱动 那没指定导入到hdfs的哪,肯定会有默认位置的 可以看出只有map任务 没有reduce任务 创 ...
分类:
其他好文 时间:
2017-03-17 17:54:17
阅读次数:
282