本文主要介绍使用Flume传输数据到MongoDB的过程,内容涉及环境部署和注意事项。 一、环境搭建 1、flune-ng下载地址:http://www.apache.org/dyn/closer.cgi/flume/1.5.2/apache-flume-1.5.2-bin.tar.gz2、mong ...
分类:
数据库 时间:
2017-03-07 22:33:25
阅读次数:
234
在分布式系统中,各个机器都有程序运行的本地日志,有时为了分析需求,不得不这些分散的日志汇总需求,相信很多人会选择 Rsync,Scp 之类, 但它们的实时性不强,而且也会带来名字冲突的问题。扩展性差强人意,一点也不优雅。 现实中,我们就碰到了这样的需求:实时汇总线上多台服务器的 Nginx 日志。F ...
分类:
Web程序 时间:
2017-03-06 13:40:37
阅读次数:
1045
数据开发相关的经验不是很多,目前已自己对这块工作的理解,先初步整理下。 所谓数据开发是面向数据仓库的开发,所以结合一般数据仓库的架构主要有几个方面的生态内容。 1、数据采集 mysql等关系型数据的搜集 分布式日志搜集(flume、kafka) 2、数据存储 hdfs 3、数据计算(离线、实时) m ...
分类:
其他好文 时间:
2017-03-05 17:42:13
阅读次数:
156
Kafka 由LinkedIn于2010年12月(https://thenewstack.io/streaming-data-at-linkedin-apache-kafka-reaches-1-1-trillion-messages-per-day/)开源出来一个消息的发布/订阅系统,用scala ...
分类:
Web程序 时间:
2017-02-25 19:56:27
阅读次数:
479
日志采集框架Flume的安装及使用1.Flume介绍1.1.Flume概述Flume是一个分布式、可靠、和高可用(旧版Flume og才有高可用)的海量日志采集、传输和聚合的系统。
Flume可以采集...
分类:
Web程序 时间:
2017-02-24 16:27:40
阅读次数:
234
关于Flume,官方定义如下: Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log ...
分类:
Web程序 时间:
2017-02-18 19:58:04
阅读次数:
247
转自:http://blog.csdn.net/a2011480169/article/details/51544664 在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不 ...
分类:
Web程序 时间:
2017-02-16 10:51:32
阅读次数:
366
对于日志收集统计分析方案现在主流的有ELKrediskafkaflume+大数据平台,ELK我们以后再介绍,这里先简单介绍下rsyslog对接kafkakafka中的术语BrokerKafka集群包含一个或多个服务器,这种服务器被称为brokerTopic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。(..
分类:
其他好文 时间:
2017-02-13 14:20:27
阅读次数:
876
前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时 ...
分类:
其他好文 时间:
2017-02-08 10:35:16
阅读次数:
570
分布式服务:Dubbo+Zookeeper+Proxy+Restful 分布式消息中间件:KafKa+Flume+Zookeeper 分布式缓存:Redis 分布式文件:FastDFS 负载均衡:Keepalived+Nginx+Proxy(三重负载) ...
分类:
编程语言 时间:
2017-02-07 19:07:12
阅读次数:
441