1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便 ...
分类:
Web程序 时间:
2019-01-14 11:52:46
阅读次数:
210
思路 1. 日志统一输出至kafka 2. flume agent充当kafka消费者,将日志输出至elasticsearch 3. kibana负责展示日志信息 准备工作 1. flume 1.8 kafka 1.1.0 elasticsearch&kibana 6.5.4 2. 项目中一般使用l ...
分类:
Web程序 时间:
2019-01-13 00:08:35
阅读次数:
356
拦截器 一、需求的产生 因生产需求,要将kafka中的数据上传至hdfs,所以计划部署flume来完成。 ? 1.需要将kafkaSource中的json数据解析成需要的数据格式,落地至hdfs,供hive加载,所以此处需要自定义拦截器,对event.body进行逻辑解析。 ? 2.同时因为不同ka ...
分类:
Web程序 时间:
2019-01-12 12:04:42
阅读次数:
217
项目架构:日志数据---->flume----->kafka-------->sparkstreaming---------->mysql/redis/hbase前置条件:安装zookeeper安装flume安装kafakhadoop实现高可用(1)实现flume收集数据到kafka启动kafak:nohupkafka-server-start.sh\/applicatio
分类:
其他好文 时间:
2019-01-07 22:38:15
阅读次数:
171
一. 安装Ganglia 1. 安装httpd服务与php 2. 安装其他依赖 3. 安装ganglia Ganglia由gmond、gmetad和gweb三部分组成。 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gm ...
分类:
Web程序 时间:
2019-01-04 18:40:08
阅读次数:
225
数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上 消息系统:可以加入Kafka防止数据丢失 实时计算:实时计算使用Spark Streaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中 机器学习:使用了Spark MLlib ...
分类:
其他好文 时间:
2019-01-04 14:49:53
阅读次数:
154
1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle ...
分类:
其他好文 时间:
2019-01-02 23:28:02
阅读次数:
243
flume flume 简介及核心概念 什么是flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前是Apache的顶级项目。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据 ...
分类:
其他好文 时间:
2019-01-02 19:08:54
阅读次数:
262
2018-12-31 15:29:44 Flume 百度百科: flume(日志收集系统) Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种 ...
分类:
Web程序 时间:
2018-12-31 19:17:11
阅读次数:
187
步骤: 1.在Linux下安装netcat工具,用户开启socket客户端: a.切换至root下 $>su root b.执行安装命令 $>yum install -y nc c.切换至Alex_lei用户下,模拟聊天室: $>nc 开启服务端 $>nc -l 55555 开启客户端 $>nc l ...
分类:
Web程序 时间:
2018-12-31 14:43:05
阅读次数:
279