HBase 安装snappy压缩软件以及相关编码配置 前言 ? 在使用HBase过程中因为数据存储冗余、备份数等相关问题占用过多的磁盘空间,以及在入库过程中为了增加吞吐量所以会采用相关的压缩算法来压缩数据,降低存储空间和在入库过程中通过数据压缩提高吞吐量。 一、HBase安装Snappy压缩软件 h ...
分类:
移动开发 时间:
2019-11-20 18:02:28
阅读次数:
126
Linux下使用tar命令来进行打包和解压的操作,再搭配常见压缩算法,可以实现对文件的压缩打包解压缩,常见的压缩算法有gzip,bzip2,还有deflate、snappy等其他的,这里不做记录。 压缩 通过算法,将文件尺寸进行相应缩小,同时不损失文件内容。常用压缩算法如gzip和bzip2,使用压 ...
分类:
系统相关 时间:
2019-10-21 09:39:32
阅读次数:
116
MapReduce思想: 核心: 分而治之,先分在和 应用场景: 复杂任务,没有依赖,以并行提供处理效率 脉络体现: 先map后reduce map:把复杂的任务拆分成任务,局部进行计算,得出局部结果 reduce:把map的局部结果进行全局汇总,得到最终结果 MapReduce设计构思: 如何进行 ...
分类:
其他好文 时间:
2019-09-14 22:54:25
阅读次数:
155
本篇开始来学习关于 dockerfile 的知识。 注:环境为 CentOS7,docker 19.03。 dockerfile 是?个?本格式的配置?件, ?户可以使? dockerfile 来快速创建?定义的镜像。 指令系统 dockerfile 主要是通过一个指令来实现想要的功能的。docke ...
分类:
其他好文 时间:
2019-08-24 18:56:37
阅读次数:
83
一 简介:讲讲如何优化mongo配置文件二 常规参数 port= //端口 fork=true//守护进程方式启动mongo logpath=shard.log //mongo日志存放路径 journal= true//redo log开启 nohttpinterface = true //关闭ht ...
分类:
数据库 时间:
2019-07-31 13:18:15
阅读次数:
109
简介为了可以通过WebUI控制台页面来查看具体的运行细节,解决应用程序运行结束,无法继续查看监控集群信息。无法回顾运行的程序细节,配置开启spark.history服务.SparkHistoryServer可以很好地解决上面的问题。配置文件位置:$SPARK_HOME$/conf目录下的spark-defaults.conf文件。默认spark-defaults.conf是不存在的,我们可以根据S
分类:
其他好文 时间:
2019-07-19 16:53:29
阅读次数:
97
一。MapReduce概念 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 1.1 为什么要MapRedu ...
分类:
其他好文 时间:
2019-06-12 01:06:24
阅读次数:
120
第8章 压缩和存储 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1.CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的 注意:采用root角色编译,减少文件夹权限出现问题 2.jar包准备(hadoop源码、JDK ...
分类:
其他好文 时间:
2019-06-05 00:22:54
阅读次数:
175
一、Fetch Task在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行,但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗?那个也太浪费时间和内存啦,所以有一个hive的配置如下所示:#在hive-default.xml.templa... ...
分类:
其他好文 时间:
2019-04-28 15:50:07
阅读次数:
141
一、kafka集群搭建 至于kafka是什么我都不多做介绍了,网上写的已经非常详尽了。 1. 下载zookeeper https://zookeeper.apache.org/releases.html 2. 下载kafka http://kafka.apache.org/downloads 3. ...
分类:
其他好文 时间:
2019-04-25 21:30:11
阅读次数:
307