Sqoop的导入

时间：2020-05-21 19:04:25 阅读：40 评论：0 收藏：0 [点我收藏+]

标签：记录基础上 db_name word body 数据类型 head 指定分块

导入数据

导入到 hdfs

sqoop import \
#--connect jdbc:mysql://hadoop102:3306/$db_name \
--connect "jdbc:oracle:thin:@192.156.456.456:1521:SYNTONG" \
--username "school" \
--password "school" \
--target-dir "$db_dir" \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by "\\t" \
--query "$sql"

参数	说明
`--append`	数据追加到hdfs已经存在的数据组中。使用该参数，sqoop将把数据先导入到一个临时目录中，避免文件重名。
`--as-avrodatafile`	将数据导入到Avro数据文件中
`--as-sequencefile`	将数据导入到sequence文件中
`--as-textfile`	将数据导入到普通文本文件中。最终可以在hive中通过sql语句查询出结果。
`--enclosed-by ‘\"‘`	字段值前后加上指定字符，比如双引号
`--columns<col,col>`	指定导入的字段，格式如：`--columns id,username`
`-m,--num-mappers`	启动N个map来并行导入数据，默认是4个，最好不要将数字设置为高于集群的节点数
`--query，-e <sql>`	sql语句查询结果集。该参数使用时必须指定`–target-dir`、`–hive-table`，必须在where条件中需要包含 `\$CONDITIONS。`
`--boundary-query <statement>`	边界查询。在导入前先通过SQL查询得到一个结果集，然后导入的数据就是该结果集内的数据。格式如：`--boundary-query ‘select id,no from t where id = 3‘`，表示导入的数据为id=3的记录，或者 `select min(<split-by>), max(<split-by>) from <table name>`，注意查询的字段中不能有数据类型为字符串的字段，否则会报错
`--table <table-name>`	关系数据库表名，数据从该表中获取
`--delete-target-dir`	如果目标目录存在，先删除目录
`--target-dir <dir>`	指定hdfs路径
--fields-terminated-by "\t"	每个字段是以什么符号作为结束的，默认是逗号
`--null-string ‘\\N‘ \` `--null-non-string ‘\\N‘ \`	`为了避免空值时，没有数据`
`--where`	查询条件，示例：`--where "id = 2"`
`-z,--compress`	压缩参数，默认情况下数据是没被压缩的，通过该参数可以使用gzip压缩算法对数据进行压缩，适用于SequenceFile, text文本文件, 和Avro文件
`--compression-codec`	Hadoop压缩编码，默认是gzip
`--direct`	直接导入模式，使用的是关系数据库自带的导入导出工具。这样导入会更快支持的数据库类型与版本： * myslq 5.0 以上 * oracle 10.2.0 以上
`--direct-split-size`	在使用上面direct直接导入的基础上，对导入的流按字节数分块，特别是使用直连模式从PostgreSQL导入数据的时候，可以将一个到达设定大小的文件分为几个独立的文件。
`--split-by <column>`	`表的列名，用来切分工作单元，一般后面跟主键ID`
`--inline-lob-limit`	`设定大对象数据类型的最大值`

导入Hive

sqoop import --connect "jdbc:oracle:thin:@192.198.123.456:1521:SYNTONG" --username "school" --password "school" --query "$sql" --hive-table test.view_trjn --hive-drop-import-delims --target-dir "$db_dir" --fields-terminated-by "\\t" --hive-overwrite --null-string ‘\\N‘ --null-non-string ‘\\N‘ \--hive-import

参数	说明
`--hive-overwrite`	覆盖掉在hive表中已经存在的数据
`--hive-table`	后面接要创建的hive表
–hive-partition-value “2018-08-08”	指定分区表的值
`–hive-partition-key “dt”`	`指定分区表的字段`
`--hive-delims-replacement“ ”`	导入到Hive时，用用户定义的字符串替换字符串字段中的\n、\r和\01
`--hive-drop-import-delims`	`从字符串字段中删除\n、\r和\01`
`--hive-import`	`指定是导入 Hive`

Sqoop的导入

标签：记录基础上 db_name word body 数据类型 head 指定分块

原文地址：https://www.cnblogs.com/mergy/p/12932398.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行