标签:span 目录 com hdf git world mapreduce -- 增量
Sqoop 是连接传统关系型数据库和Hadoop 的桥梁,主要功能是,
把关系型数据库的数据导入到Hadoop 系统( 如HDFS、HBase 和Hive) 中
把数据从Hadoop 系统里抽取并导出到关系型数据库里
可以利用MapReduce 加快数据传输速度,使用批处理的方式进行数据传输
全量导入:
sqoop
增量导入:
Canal(https://github.com/alibaba/canal)
DataBus(https://github.com/linkedin/databus )
1、Sqoop与数据库Server 通信,获取数据库表的元数据信息
2、Sqoop启动一个Map-Only的MR作业,利用元数据信息并行将数据写入Hadoop
sqoop import --connect jdbc:mysql://mysql.example.com/sqoop \ --username sqoop --password sqoop --table cities 注: --connnect: 指定JDBC URL --username/password:mysql数据库的用户名 --table:要读取的数据库表
1、Sqoop与数据库Server 通信,获取数据库表的元数据信息
2、并行导入数据,将Hadoop上文件划分成若干个split,每个split由一个Map Task进行数据导入
sqoop export --connect jdbc:mysql://mysql.example.com/sqoop \ --username sqoop --password sqoop --table cities --export-dir cities 注: --connnect: 指定JDBC URL --username/password:mysql数据库的用户名 --table:要导入的数据库表 export-dir:数据在HDFS上存放目录
sqoop import --connect jdbc:mysql://mysql.example.com/sqoop \ --username sqoop --password sqoop --table cities --hive-import sqoop import --connect jdbc:mysql://mysql.example.com/sqoop \ --username sqoop --password sqoop --table cities --hbase-table cities --column-family world
标签:span 目录 com hdf git world mapreduce -- 增量
原文地址:http://www.cnblogs.com/sorco/p/6902398.html