配置Flume 修改flume env.sh 修改Hbase的hbase env.sh(未出现异常可以忽略) 查看Flume配置版本 测试Flume(avro source) 修改avro.conf 启动flume agent a1 向指定文件写入日志 启动avro client 在启动的服务控制台 ...
分类:
Web程序 时间:
2019-09-13 21:43:36
阅读次数:
114
flume扇出流动的过程 实现过程 首先准备三台机器:hadoop01,hadoop02,hadoop03 (我在三台机器上已配置好hosts) 然后每台机器上配置Agent 配置hadoop01 配置hadoop02和hadoop03一样 配置完了后,首先启动hadoop02和hadoop03上的 ...
分类:
Web程序 时间:
2019-09-10 23:18:41
阅读次数:
135
1.1 什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitt ...
分类:
其他好文 时间:
2019-09-04 10:22:15
阅读次数:
115
官网指导文档: http://flume.apache.org/releases/content/1.7.0/FlumeDeveloperGuide.html http://flume.apache.org/releases/content/1.9.0/FlumeDeveloperGuide.htm ...
分类:
Web程序 时间:
2019-09-03 12:06:57
阅读次数:
114
1.下载安装 Java代码 官方网站:http://flume.apache.org/ http://mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz tar -zxvf apache-flume-1.6.0-bin ...
分类:
Web程序 时间:
2019-09-02 12:02:11
阅读次数:
119
日志采集框架Flume Flume介绍 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部 ...
分类:
Web程序 时间:
2019-09-02 09:35:39
阅读次数:
86
一、Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本,NG 在 OG 的基础上进行了完全的重构,是目前使用最为广泛的版本。下面的 ...
分类:
Web程序 时间:
2019-08-31 17:18:53
阅读次数:
130
背景 Hadoop业务的整体开发流程: ? 从Hadoop的业务开发流程中可以看出,在大数据的业务处理流程中,对于数据的采集是十分重要的一步,也是不可避免的一步。 ? 许多公司的平台每天会产生大量的日志(一般为流式数据,如搜索引擎的pv,查询等),处理这些日志需要特定的日志系统。一般而言,这些系统需 ...
分类:
Web程序 时间:
2019-08-20 21:59:27
阅读次数:
152
1.kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。 1.1 broker:安装了kafka服务的机器称之为broker 1.2 topic(主题):是用来存放消息, ...
分类:
其他好文 时间:
2019-08-20 10:40:28
阅读次数:
73
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume style Push based ...
分类:
Web程序 时间:
2019-08-15 09:24:53
阅读次数:
106