码迷,mamicode.com
首页 > 其他好文 > 详细

sqoop的数据抽取过程记录

时间:2017-05-10 01:09:54      阅读:283      评论:0      收藏:0      [点我收藏+]

标签:数据抽取   默认   hive   oracle   sqoop   hdfs   级别   over   目录   

今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle----hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖,没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。

sqoop的数据抽取过程记录

标签:数据抽取   默认   hive   oracle   sqoop   hdfs   级别   over   目录   

原文地址:http://www.cnblogs.com/yaohaitao/p/6833389.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!