码迷,mamicode.com
首页 >  
搜索关键字:flume hdfs sink lzo 格式压缩    ( 6349个结果
Hadoop3.13 配置文件
首先会写出集群的部署规划,然后根据规划编写对应的配置文件 主要包含四个配置文件,包含的,将配置文件改好,然后分发到各个配置文件然后启动集群的时候将会加载配置文件 一、集群的部署规划 hadoop102 hadoop103 hadoop104 HDFS NameNode DataNode DataNo ...
分类:其他好文   时间:2020-07-19 00:55:10    阅读次数:85
centos7 安装Flume
Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据 Flume架构和核心组件 Source 收集 Channel 处理 Sink 输出 1.安装java1.8版本 https://www.cnblogs.com/yoyo1216/p/12668926.html 2.创建 ...
分类:Web程序   时间:2020-07-18 22:50:30    阅读次数:97
使用Flume
实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中 cd /usr/local/flume/apache-flume-1.6.0-cdh5.9.0-bin/conf vim example.conf # 命名此代理上的组件 agent.sources = seqGenSrc # sour ...
分类:Web程序   时间:2020-07-18 22:49:42    阅读次数:97
切记,在进行flume监测文件时采用的是正则表达式
# Name the components on this agenta1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2 #将数据流复制给所有channel#下边这句是默认的,不配置也可以#a1.sources.r1.selector.type = ...
分类:Web程序   时间:2020-07-18 19:54:00    阅读次数:103
日志学习
日志 boost::log source core sink ACL log golang 参考资料 https://www.boost.org/doc/libs/1_65_1/libs/log/doc/html/index.html boost::log库学习 ...
分类:其他好文   时间:2020-07-18 15:59:39    阅读次数:62
datax的安装与使用
1、官网下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxC ...
分类:其他好文   时间:2020-07-17 22:02:27    阅读次数:140
小需求:看数据源目录下所有gz压缩包的原始大小
今天MR的数据源很可能出现了问题,正常每天对方服务器会推过来2.1TB数据,今天只有1.6TB。 过来是gz压缩包,FTP的方式推送,进来之后我这边的程序进行解析,并存入HDFS。 对端的工程师只能看到压缩包目录的大小,看不到压缩前文件总大小,商量了一下,觉得不好对比数据一致性,想排查数据量问题,没 ...
分类:其他好文   时间:2020-07-17 09:40:37    阅读次数:123
Flume、Logstash、Filebeat对比
Flume、Logstash、Filebeat对比 日志采集工具对比 1、Flume简介 Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员,内部有三个组件: ...
分类:Web程序   时间:2020-07-15 23:42:18    阅读次数:161
flume实时采集mysql数据到kafka
1.flume连接mysql驱动包准备 进入链接下载源码https://github.com/keedio/flume-ng-sql-source现在最新是1.5.3解压, 进入到目录中编译 直接编译可能报错,跳过test mvn package -DskipTests 2.flume与kafka, ...
分类:数据库   时间:2020-07-15 23:28:07    阅读次数:166
记一次HDFS配置被覆盖的修复步骤
这个事情的背景是公司的Hadoop生态集群都是原生的,不是基于CDH的,所以基本所有的东西都需要自己手动管理,比如集群修改一些属性,然后批量分发重启或者动态生效之类的。这次也算不上事故,因为没对生产环境造成什么影响,但是差一点就变成事故,写出来分享一下。 事情简单概括就是,60+台hadoop的集群 ...
分类:其他好文   时间:2020-07-14 13:10:45    阅读次数:72
6349条   上一页 1 ... 17 18 19 20 21 ... 635 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!