码迷,mamicode.com
首页 > 其他好文 > 详细

hive压缩

时间:2017-09-07 14:51:43      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:分割   none   app   响应   tar   targe   写入   性能   过程   

1. 常用  rcfile + gzip

             parquet + snappy

2. 压缩比,参考

  1. TextFile默认格式,加载速度最快,可以采用Gzip进行压缩,压缩后的文件无法split,即并行处理。
  2. SequenceFile压缩率最低,查询速度一般,将数据存放到sequenceFile格式的hive表中,这时数据就会压缩存储。三种压缩格式NONE,RECORD,BLOCK。是可分割的文件格式。
  3. RCfile压缩率最高,查询速度最快,数据加载最慢。
  4. 相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存储方式,数据加载时性能消耗较大,但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取,因此,整体来看,RCFILE相比其余两种格式具有较明显的优势。
  5. 在hive中使用压缩需要灵活的方式:

如果是数据源的话,采用 RCFile+bz 或 RCFile+gz 的方式,这样可以很大程度上节省磁盘空间;

而在计算的过程中,为了不影响执行的速度,可以浪费一点磁盘空间,建议采用 RCFile+snappy 的方式,这样可以整体提升hive的执行速度。

至于lzo的方式,也可以在计算过程中使用,只不过综合考虑(速度和压缩比)还是考虑snappy适宜。

hive压缩

标签:分割   none   app   响应   tar   targe   写入   性能   过程   

原文地址:http://www.cnblogs.com/skyEva/p/7489368.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!