Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适...
分类:
其他好文 时间:
2014-06-21 06:22:00
阅读次数:
273
Apache已经发布了Kafka 0.8,也是自从成为Apache软件基金会的顶级项目后Kafka的 第一个主版本。 Apache Kafka是发布—订阅消息传递,实现了分布式提交日志,适用于离线和在线消息消费。它最初由LinkedIn开发的消息系统,用于低延迟的收集和发送大 量的事件和日志数据。最...
分类:
其他好文 时间:
2014-06-21 06:21:23
阅读次数:
253
简介Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。Apache Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩...
分类:
其他好文 时间:
2014-06-17 20:04:58
阅读次数:
201
Apache DataFu分两部分,本文介绍的是其Pig UDF的部分。代码在Github上开源。
DataFu里面是一些Pig的UDF,主要包括这些方面的函数:
bags、geo、hash、linkanalysis、random、sampling、sessions、sets、stats、urls
每方面都对应一个package。
我把所有的函数源码都浏览了一遍。其实本身对这些UDF的使用,官方的文档上都有介绍,而且源码的注释里也些的很清晰。所以使用本身是很简单的。
从实现角度看,继承自Pig Ev...
分类:
其他好文 时间:
2014-05-09 01:14:25
阅读次数:
436