转自:http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDF ...
分类:
Web程序 时间:
2017-05-14 15:26:39
阅读次数:
365
喜欢学习的朋友可以收藏 愿意了解框架技术或者源码的朋友直接加求求(企鹅):2042849237 ...
分类:
Web程序 时间:
2017-05-11 16:58:53
阅读次数:
169
转载请注明原文出处:http://www.cnblogs.com/lighten/p/6830439.html 1.简介 该文主要是翻译官方的相关文档,源地址点击这里。介绍一下Flume的一些基本知识和搭建方法。 Apache Flume是一种分布式,可靠和可用的系统,用于高效收集,聚合和将许多不同 ...
分类:
Web程序 时间:
2017-05-10 09:42:55
阅读次数:
241
Overview Flume:一个分布式的,可靠的,可用的服务,用于有效地收集、聚合、移动大规模日志数据 我们搭建一个flume + Spark Streaming的平台来从Flume获取数据,并处理它。 有两种方法实现:使用flume-style的push-based方法,或者使用自定义的sink ...
分类:
Web程序 时间:
2017-05-09 12:32:54
阅读次数:
218
一、日志采集:从网络端口接收数据,下沉到logger 文件netcat-logger.conf: 启动命令:#告诉flum启动一个agent,指定配置参数, --name:agent的名字,flume-ng agent --conf conf --conf-file conf/netcat-logg ...
分类:
Web程序 时间:
2017-05-08 16:07:49
阅读次数:
186
因为docker产生的容器不是一个永久存储的文件,所以无法保证你的文件永久保存。建议大家把容器产生的日志通过fluentd,flume,logstash等工具传送到一个日志仓库,这样保证方便保证数据的安全和管理。由于docker官方的推荐,我们本次讲解是fluentd日志收集组件。具体使用如下:..
分类:
其他好文 时间:
2017-05-05 23:15:08
阅读次数:
1798
一、Spark Streaming的介绍??Spark Streaming是Spark 核心API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从诸如Kafka,Flume,Kin...
分类:
其他好文 时间:
2017-05-05 01:05:21
阅读次数:
348
介绍 概述 Apache Flume是一个用来从非常多不同的源有效地收集。聚集和移动大量的日志数据到一个中心数据仓库的分布式的,可靠的和可用的系统。 Apache Flume是Apache软件基金会的顶级项目。眼下有两个可获得的公布代码路线,0.9.x版本号和1.x版本号。本文档适用于1.x代码线。 ...
分类:
Web程序 时间:
2017-04-29 15:08:58
阅读次数:
263
对于从Kafka、Flume以及Kinesis这类数据源提取数据的流式应用来说,还需要额外增加相应的依赖项,下表列出了各种数据源对应的额外依赖项: ...
分类:
其他好文 时间:
2017-04-28 23:39:23
阅读次数:
192
下载flume和jdkflume下载地址:wgethttps://mirrors.cnnic.cn/apache/flume/1.6.0/apache-flume-1.6.0-src.tar.gz解压文件tarzxvfapache-flume-1.6.0-src.tar.gz移动指定目录mvapache-flume-1.6.0-src.tar.gz/usr/local进入/etc/profile.d目录,添加java.sh文件,添加环境变量J..
分类:
Web程序 时间:
2017-04-28 23:39:04
阅读次数:
1076