1 InputFormat数据输入 1.1 切片与MapTask并行度决定机制 1.问题引出 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。 思考:1G的数据,启动8个MapTask,可以提高集群的并发处理能力。那么1K的数据,也启动8个MapTask,会提高 ...
分类:
其他好文 时间:
2020-07-17 09:35:30
阅读次数:
65
1.5 CombineTextInputFormat案例实操 1.需求 将输入的大量小文件合并成一个切片统一处理。 (1)输入数据 准备4个小文件 (2)期望 期望一个切片处理4个文件 2.实现过程 (1)不做任何处理,运行1.6节的WordCount案例程序,观察切片个数为4。 (2)在Wordc ...
分类:
其他好文 时间:
2020-07-17 09:33:01
阅读次数:
73
源码编译安装 http://nginx.org/en/download.html 到官网下载,然后用XFTP上传到root目录 把文件解压出来 tar -zxvf nginx-1.16.0.tar.gz 然后用yum安装依赖项 yum install gcc pcre-devel zlib-deve ...
分类:
其他好文 时间:
2020-07-17 09:27:00
阅读次数:
72
Flume、Logstash、Filebeat对比 日志采集工具对比 1、Flume简介 Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员,内部有三个组件: ...
分类:
Web程序 时间:
2020-07-15 23:42:18
阅读次数:
161
目录 1、Redis 的简介 2、Redis 下载 3、安装环境 4、编译安装 5、启动Redis 6、关闭Redis 7、注意事项 工作中一直在用 Redis,但是一直没有进行系统的总结,这个系列的博客将整体的介绍 Redis 的用法。 回到顶部 1、Redis 的简介 Redis:REmote ...
分类:
其他好文 时间:
2020-07-15 23:18:26
阅读次数:
70
Connector组件介绍 Connector(连接器)组件是Tomcat最核心的两个组件之一,主要的职责是负责接收客户端连接和客户端请求的处理加工。每个Connector都将指定一个端口进行监听,分别负责对请求报文解析和对响应报文组装。 Connector组件是整个Tomcat的入口,假如我们想要 ...
分类:
编程语言 时间:
2020-07-15 15:54:06
阅读次数:
72
Hadoop原生的计算框架MapReduce,简单概括一下:进程量级很重,启动很慢,但能承载的数据量很大,效率相较于Spark微批处理和Flink实时来讲很慢,Shuffle任何一个写MR同学都必须掌握的东西,说难不难,说简单也不简单 MapReduce程序的五个阶段: input map shuf ...
分类:
其他好文 时间:
2020-07-15 15:53:30
阅读次数:
58
一、windows服务器先本地编译 go build main.go 编译后会在同级目录生成可执行文件 ./main.exe 二、linux服务器 2.1 服务器上去编译安装go,配置GOPATH 第一步,把服务器上配置成本地一样的环境 第二部,包括项目里面所依赖的包 第三步,项目源码拷贝到与服务器 ...
分类:
其他好文 时间:
2020-07-15 15:36:18
阅读次数:
62
执行报错如下: 20/07/15 14:02:34 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly. 20/07/ ...
分类:
数据库 时间:
2020-07-15 15:29:36
阅读次数:
88
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面打开文件数达到上限,系统一般默认数量是1024,(用ulimit -a可以看到)vi /etc/security/limits.conf 添加 :sof ...
分类:
其他好文 时间:
2020-07-15 12:46:25
阅读次数:
86