在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。 ...
分类:
Web程序 时间:
2018-04-27 19:59:48
阅读次数:
277
SinkProcessor: ============================ FailOver: Load balancing : //负载均衡处理器 //round_robin 轮询 1-2-3-1-2-3-... //random 随机 1-3-2-3-1-... ... ...
分类:
Web程序 时间:
2018-04-25 20:09:18
阅读次数:
198
Flume: ===================== Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量的日志数据。 它有一个基于流数据的简单而灵活的体系结构。 它具有健壮性和容错能力,具有可调的可靠性机制和许多故障转移和恢复机制。 它使用一个简单的可扩展数据模型,允许... ...
分类:
Web程序 时间:
2018-04-25 18:58:11
阅读次数:
351
一、hadoop的概念 二、hadoop的发展历史 三、hadoop1.x的生态系统 HBase:实时分布式数据库 相当于关系型数据库,数据放在文件中,文件就放在HDFS中。因此HBase是基于HDFS的关系型数据库。实时性:延迟非常低,实时性高。 举栗:在近18亿条数据的表中查询1万条数据仅需1. ...
分类:
其他好文 时间:
2018-04-24 17:47:33
阅读次数:
271
概览 1- flume简介 2- 系统要求 3- 安装和配置 4- 启动和测试 一、flume的简介 官网地址: http://flume.apache.org/ 1- 概述 Flume是一种分布式,可靠且可用的服务,用于高效地收集,汇总和移动大量日志数据。它具有基于流式数据流的简单而灵活的架构。它 ...
分类:
Web程序 时间:
2018-04-22 10:41:27
阅读次数:
318
权限不够 注意这里的这个/home/hadoop/king/flume/103104/trackerDir/.flumespool main.meta 文件是个隐藏文件, 刚开始没找到,后面使用ll a找到了。 然后修改权限 chmod 777 /home/hadoop/king/flume/103 ...
分类:
Web程序 时间:
2018-04-18 19:15:41
阅读次数:
949
大数据实时计算完整项目案例,Flume+Kafka+Storm+Redis构建大数据实时处理系统:实时统计网站各省份PV、UV+动态展示。
分类:
Web程序 时间:
2018-04-16 21:56:43
阅读次数:
539
前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull 一、spark streaming整合flume 1.push的方式 更推荐的是pull的拉取方式 ...
分类:
Web程序 时间:
2018-04-16 18:50:35
阅读次数:
260