使用flume收集数据,将数据传递给kafka和hdfs,kafka上的数据可以使用storm构建实时计算,而hdfs上的数据,经过MR处理之后可以导入hive中进行处理。 环境:hadoop1.2.1,hive 0.13.1,maven 3.2.5,flume 1.4,kafka 0.7.2,ec...
分类:
Web程序 时间:
2015-03-14 18:17:55
阅读次数:
4961
最近做的一个项目需要跟Kafka打交道,学习了很多相关知识,就到这里来汇总一下。kafka是一个传递消息的系统,原本是用来快速记录海量log的,现在也经常用作消息队列。它主要由三个部分组成,producer,broker以及consumer。producer发布消息,broker存储消息,consu...
分类:
其他好文 时间:
2015-03-14 06:05:48
阅读次数:
147
原文:https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example
为什么使用High Level Consumer
在某些应用场景,我们希望通过多线程读取消息,而我们并不关心从Kafka消费消息的顺序,我们仅仅关心数据能被消费就行。High Level 就是用于抽象这类消费动作的。
消息消费已C...
分类:
其他好文 时间:
2015-03-13 18:53:10
阅读次数:
141
Kafka相关的文章比较多,且比较杂乱,如果都看完可能需要比较多的时间,本文对相关的关键知识点做一个总结,便于查阅...
分类:
其他好文 时间:
2015-03-13 18:50:52
阅读次数:
169
kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ。在这片博文中,作者简单提到了开发kafka而不选择已有MQ系统的原因。两个原因:性能和扩展性。Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50
MB),每秒处理55万消息(110...
分类:
其他好文 时间:
2015-03-11 19:45:02
阅读次数:
299
RocketMQ与Kafka对比(18项差异)
2015-02-28王启军奔跑中的蜗牛
此文是rocketmq作者vintage.wang所写,对于每项对比,后面都增加了我的观点,有不对的地方,请各位指出。
淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件,使用Mysql作为消息存储媒介,可完全水平扩容,为了进一步降低成本,我们认为存储部分可以...
分类:
其他好文 时间:
2015-03-10 19:23:56
阅读次数:
155
背景介绍
Kafka简介
Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:
以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区,及分布式消费,同时保证每个partition内的消息顺序传输同时支持离线数据...
分类:
其他好文 时间:
2015-03-10 17:19:03
阅读次数:
197
第一版:logstash + es第二版:kafka 替换 logstash的方案
分类:
其他好文 时间:
2015-03-09 22:23:07
阅读次数:
221
项目信息https://github.com/yahoo/kafka-manager这个项目比 https://github.com/claudemamo/kafka-web-console 要好用一些,显示的信息更加丰富,kafka-manager本身可以是一个集群。不过kafka-manager也没有权限管理功能。Kafka web console的安装可以参考之前的blog:http://b...
分类:
其他好文 时间:
2015-03-09 20:59:27
阅读次数:
164
Franz Kafka, 现代主义文学大师,出生在布拉格(捷克)的奥匈帝国作家,母语是德语的犹太人。卡夫卡的影响了许多作家,比如马尔克斯,读<百年孤独>总觉得有<变形记>的感觉,而陈忠实的<白鹿原>,余华的<活着>,还有莫言的<红高粱>,都和<百年孤独>似曾相似,也算是间接影响吧。看看卡夫卡的代表作...
分类:
其他好文 时间:
2015-03-06 15:43:15
阅读次数:
116