Flume配置文件: 但是在启动Flume时,报以下错误: 解决方案: 由于用到了agent的sink是 org.apache.spark.streaming.flume.sink.SparkSink类型,需要把spark streaming flume sink_2.11 2.4.3.jar复制到 ...
分类:
Web程序 时间:
2019-10-16 13:43:59
阅读次数:
98
第1章 概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 下面我们来详细介绍一下Flume架构中的组件。 1.2.1 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送 ...
分类:
Web程序 时间:
2019-10-13 21:05:20
阅读次数:
155
配置hadoop环境 配置flume环境 配置flume文件 D:\Soft\apache-flume-1.8.0-bin\conf 将 flume-conf.properties.template 重新命名为 hdfs.properties # 组装 agenta1.sources = s1a1. ...
分类:
Web程序 时间:
2019-10-12 11:26:24
阅读次数:
252
1、前言 从druid的0.11版本开始,我就开始关注它,每一次的版本的更新,druid都会使用户体验、性能更好,从以前手写配置文件到可视化的界面操作,从实时节点进行任务提交到现在的索引服务等 流处理: 日志监控(Flume/Airflow) > 消息中间件(kafka、MQ) > 流处理(spar ...
分类:
Web程序 时间:
2019-10-11 18:03:32
阅读次数:
122
概述 Apache Flume是一个分布式,可靠且可用的系统,用于高效地收集,汇总和将来自多个不同源的大量日志数据移动到集中式数据存储。Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮 ...
分类:
Web程序 时间:
2019-10-10 10:30:27
阅读次数:
114
大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: ...
分类:
其他好文 时间:
2019-10-06 16:48:10
阅读次数:
114
Photo by Janke Laskowski on Unsplash 参考书籍:《Flume构建高可用、可扩展的海量日志采集系统》 ——Hari Shreedharan 著 以下简称“参考书籍”,文中部分资料和图片会标注引用自书中。官方文档简称“官文”。 文章为个人从零开始学习记录,如有错误,还 ...
分类:
Web程序 时间:
2019-10-03 22:02:35
阅读次数:
136
Ganglia 由 gmond、gmetad 和 gweb 三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、网络和活跃进程的数据等。 g ...
分类:
Web程序 时间:
2019-10-01 18:34:26
阅读次数:
146
Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。 Sink 是完全事务性的。 在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。 批量事件一旦成功写出到存储系统或 ...
分类:
Web程序 时间:
2019-10-01 09:59:54
阅读次数:
102
开源实现:https://github.com/keedio/flume-ng-sql-source 这里记录的是自己手动实现。 测试中要读取的表 记录表(必须),告诉 Flume 每次从哪开始读取 一、编写自定义 Source 1.添加 pom 依赖 2.编写类 MySQLSourceHelper ...
分类:
数据库 时间:
2019-09-29 19:58:38
阅读次数:
141