码迷,mamicode.com
首页 > 其他好文 > 详细

Sqoop的导入

时间:2020-05-21 19:04:25      阅读:40      评论:0      收藏:0      [点我收藏+]

标签:记录   基础上   db_name   word   body   数据类型   head   指定   分块   

导入数据

导入到 hdfs

sqoop import \
#--connect jdbc:mysql://hadoop102:3306/$db_name \
--connect "jdbc:oracle:thin:@192.156.456.456:1521:SYNTONG" \
--username "school" \
--password "school" \
--target-dir "$db_dir" \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\\t" \
--query "$sql"
参数说明
--append

数据追加到hdfs已经存在的数据组中。使用该参数,sqoop将把数据先导入到一个临时目录中,避免文件重名。

--as-avrodatafile 将数据导入到Avro数据文件中  
--as-sequencefile 将数据导入到sequence文件中
--as-textfile

将数据导入到普通文本文件中。最终可以在hive中通过sql语句查询出结果。

--enclosed-by ‘\"‘ 字段值前后加上指定字符,比如双引号
--columns<col,col> 指定导入的字段,格式如:--columns id,username
-m,--num-mappers 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数
--query,-e <sql>

sql语句查询结果集。该参数使用时必须指定–target-dir–hive-table,必须在where条件中需要包含 \$CONDITIONS。

 --boundary-query <statement>

边界查询。在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据。

格式如:--boundary-query ‘select id,no from t where id = 3‘,表示导入的数据为id=3的记录,或者 select min(<split-by>), max(<split-by>) from <table name>,注意查询的字段中不能有数据类型为字符串的字段,否则会报错

--table <table-name> 关系数据库表名,数据从该表中获取
--delete-target-dir 如果目标目录存在,先删除目录
--target-dir <dir> 指定hdfs路径
--fields-terminated-by "\t"  每个字段是以什么符号作为结束的,默认是逗号

--null-string ‘\\N‘ \

--null-non-string ‘\\N‘ \

为了避免空值时,没有数据
--where 查询条件,示例:--where "id = 2"
-z,--compress 压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件
--compression-codec Hadoop压缩编码,默认是gzip
 --direct

 直接导入模式,使用的是关系数据库自带的导入导出工具。这样导入会更快

支持的数据库类型与版本:
* myslq 5.0 以上
* oracle 10.2.0 以上

 --direct-split-size  在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。
--split-by <column> 表的列名,用来切分工作单元,一般后面跟主键ID
--inline-lob-limit 设定大对象数据类型的最大值
   

导入Hive

sqoop import --connect "jdbc:oracle:thin:@192.198.123.456:1521:SYNTONG" --username "school" --password "school" --query "$sql" --hive-table test.view_trjn --hive-drop-import-delims --target-dir "$db_dir" --fields-terminated-by "\\t" --hive-overwrite --null-string ‘\\N‘ --null-non-string ‘\\N‘ \--hive-import
参数说明
--hive-overwrite 覆盖掉在hive表中已经存在的数据
--hive-table 后面接要创建的hive表  
–hive-partition-value “2018-08-08” 指定分区表的值
–hive-partition-key “dt” 指定分区表的字段
--hive-delims-replacement“ ” 导入到Hive时,用用户定义的字符串替换字符串字段中的\n、\r和\01                                                                                                                                                          
--hive-drop-import-delims 从字符串字段中删除\n、\r和\01
--hive-import 
指定是导入 Hive

Sqoop的导入

标签:记录   基础上   db_name   word   body   数据类型   head   指定   分块   

原文地址:https://www.cnblogs.com/mergy/p/12932398.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!