如何在分布式集群中,充分利用多节点,对大数据进行拆分,实现并行计算,“parallel computing by kafka-storm ” 提供了一种很好的思路。...
分类:
其他好文 时间:
2014-12-29 23:03:01
阅读次数:
208
1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上。
2 设计架构:
1) 客户端产生数据---
2) kafka-生产者实时采集数据(保留7天)-----
3) storm实时消费数据,处理数据
4)把实时数据统计结果缓存到memcached 中...
分类:
其他好文 时间:
2014-12-29 23:01:45
阅读次数:
235
1.topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 Schema: { ? ? "version": "版本编号目前固定为数字1", ? ? "partitions": { ? ? ? ? "partitionId编号": [ ? ? ?...
分类:
Web程序 时间:
2014-12-24 16:28:20
阅读次数:
165
原文地址:http://www.aboutyun.com/thread-9938-1-1.html问题导读1.Kafka提供了Producer类作为java producer的api,此类有几种发送方式?2.总结调用producer.send方法包含哪些流程?3.Producer难以理解的在什么地方...
分类:
Web程序 时间:
2014-12-24 13:08:58
阅读次数:
189
IntroductionApache Kafkais a distributed publish-subscribe messaging system. It was originally developed at LinkedIn Corporation and later on became a...
分类:
Web程序 时间:
2014-12-23 20:47:23
阅读次数:
262
[This article was originally written by Yves Trudeau.]http://java.dzone.com/articles/exploring-message-brokersMessage brokersare not regularly covered...
分类:
其他好文 时间:
2014-12-22 14:19:03
阅读次数:
230
1.背景最近因为工作需要,调研了追求高吞吐的轻量级消息系统Kafka,打算替换掉线上运行的ActiveMQ,主要是因为明年的预算日流量有十亿,而ActiveMQ的分布式实现的很奇怪,所以希望找一个适合分布式的消息系统。以下是内容是调研过程中总结的一些知识和经验,欢迎拍砖。2.基础知识2.1.什么是消...
分类:
其他好文 时间:
2014-12-21 20:36:57
阅读次数:
290
kafka单机部署kafka是一种高吞吐量的分布式发布订阅消息系统,kafka是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为环境配置:
CentOSrelease6.3(Final)
jdk版本:jdk-6u31-linux-x64-rpm.bin
zookeeper版..
分类:
其他好文 时间:
2014-12-19 19:23:50
阅读次数:
225
2014年11月25日,Storm发布了0.9.3的版本。Storm 0.9.3的版本修改了100个Bug,改进了与Kafka的集成,并增加了与HDFS和HBase的集成。改进了与Kafka的集成Apache Storm从0.9.2-incubating版本开始支持Kafka作为流数据的数据源。0....
分类:
其他好文 时间:
2014-12-17 20:12:03
阅读次数:
223
做kafka相关项目,需要用到监控的东东,找到了两个方法第一个:http://quantifind.com/KafkaOffsetMonitor/非常容易上手,效果也直观,可以显示各个topic consumer的offset broker存储log的长度不过发现一个bug就是当 consumer没...
分类:
其他好文 时间:
2014-12-17 17:55:21
阅读次数:
768