sqoop的数据抽取过程记录

时间：2017-05-10 01:09:54 阅读：283 评论：0 收藏：0 [点我收藏+]

标签：数据抽取默认 hive oracle sqoop hdfs 级别 over 目录

今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟开了两个map。模型是oracle----hdfs（hive）。以前只抽过几十万级别，所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖，没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。

sqoop的数据抽取过程记录

标签：数据抽取默认 hive oracle sqoop hdfs 级别 over 目录

原文地址：http://www.cnblogs.com/yaohaitao/p/6833389.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行