网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计?和?腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于j...
分类:
Web程序 时间:
2014-07-21 10:06:59
阅读次数:
521
1.flume的基本概念
本文中所有与flume相关术语都采用斜体英文表示,这些术语的含义如下所示。
flume 一个可靠的,分布式的,用于采集,聚合,传输海量日志数据的系统。
Web Server 一个产生 Events 的系统。
Agent flume 系统中的一个节点,它主要包含三个部件:Source, Channel...
分类:
其他好文 时间:
2014-07-15 12:59:26
阅读次数:
402
flume-ng
是一个分布式,高可用的日志收集系统。主要用来将分布在不同服务器上的业务日志汇总在一个集中的数据存储中心一
安装与环境配置下载地址http://flume.apache.org/download.html,下载Apache Flume
binary至目标服务器解压运行环境java版本...
分类:
其他好文 时间:
2014-06-10 21:03:30
阅读次数:
451
写在前面一:
本文总结“Hadoop生态系统”中的其中一员——Apache Flume
写在前面二:
所用软件说明:
一、什么是Apache Flume
官网:Flume is a distributed, reliable, and available
service for efficiently
collecting, aggregating, and m...
分类:
其他好文 时间:
2014-05-26 04:32:10
阅读次数:
359
作者在工作中遇到了类似流式数据实时接入的业务场景,所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具,文中的图片来自淘宝数据仓库团队交流过程中的sildes,也参考了一些相关文档。
业务背景
TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。
目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据...
分类:
其他好文 时间:
2014-05-22 10:58:59
阅读次数:
334