1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下: 步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i ...
分类:
其他好文 时间:
2020-09-17 17:04:51
阅读次数:
30
1 Hadoop 源码编译支持 Snappy 压缩 1.1 资源准备 1.CentOS 联网 配置 CentOS 能连接外网。Linux 虚拟机 ping www.baidu.com 是畅通的 注意:采用 root 角色编译,减少文件夹权限出现问题 2.jar 包准备(hadoop 源码、JDK8 ...
分类:
其他好文 时间:
2020-07-23 22:32:44
阅读次数:
73
仅罗列一些常用基本配置,更多配置请到查看 https://www.orchome.com/472 server.properties配置文件 ###kafka服务和系统相关### #broker id,代表当前主机,集群里唯一 broker.id=1 #监听地址和端口,producter、consu ...
分类:
其他好文 时间:
2020-07-11 13:08:02
阅读次数:
51
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha ...
分类:
其他好文 时间:
2020-05-30 19:42:06
阅读次数:
53
背景 早在2013年1月,ORC(Optimized Row Columnar)出现,作为大规模加速Apache Hive和提高存储在Apache Hadoop中的数据的存储效率的计划的一部分。重点是为了提升处理速度和减小文件占用磁盘大小。 目前有很多公司已经大规模使用ORC了,比如Facebook ...
分类:
其他好文 时间:
2020-05-21 16:21:16
阅读次数:
76
1、批处理 传统消息中间件,一次只发送单挑消息;kafka,一次发送多条消息,微批处理。 2、数据压缩 日志格式,数据压缩,snappy, 3、顺序写入 只在log文件末尾追加 4、分区 参考: (1)https://mp.weixin.qq.com/s/G5nfLpPOr80pk1sHzrLuOA ...
分类:
其他好文 时间:
2020-04-30 09:49:07
阅读次数:
61
mac python3.7消费kafka数据时报错如下: kafka.errors.UnsupportedCodecError: UnsupportedCodecError: Libraries for snappy compression codec not found 解决方案: 1. brew ...
分类:
移动开发 时间:
2020-04-02 14:25:37
阅读次数:
246
使用ffprobe 查询wav文件信息 安装 安装过程和ffmepg相同不在赘述 不带参数查询文件信息 去除不必要的日志 使用 show_format 使用 print_format json输出为json格式 使用 show_format show_streams 本文由博客一文多发平台 "Ope ...
分类:
其他好文 时间:
2020-01-17 22:50:53
阅读次数:
125
安装依赖 sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libhdf5-serial-dev protobuf-compile sudo apt-get install --no-install-recommend ...
分类:
其他好文 时间:
2019-11-29 12:50:30
阅读次数:
76
gzip,bzip2,lzo,snappy是hadoop中比较常见的文件压缩格式,可以节省很多硬盘存储,博主阅读了“剑仙ex”的: Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景很受启发,但这位仁兄没有做成表格进行对比,本文将会对这4种压缩格式优缺点,使用场景做一个 ...
分类:
移动开发 时间:
2019-11-28 20:57:51
阅读次数:
162