今天重启了下Hadoop集群,使用Eclipse调试hdfs api的时候报错:[WARNING] java.lang.NullPointerException at org.conan.kafka.HdfsUtil.batchWrite(HdfsUtil.java:50) at org...
分类:
其他好文 时间:
2014-10-23 12:20:22
阅读次数:
254
flume是一个实时消息收集系统,它定义了多种的source、channel、sink,可以根据实际情况选择。Flume下载及文档:http://flume.apache.org/Kafkakafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的..
分类:
Web程序 时间:
2014-10-22 18:36:34
阅读次数:
338
kafka是一种高吞吐量的分布式发布订阅消息系统,她有如下特性:
通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
支持通过kafka服务器和消费机集群来分区消息。
支持H...
分类:
其他好文 时间:
2014-10-13 18:48:06
阅读次数:
165
转:http://blog.chinaunix.net/uid-25135004-id-4172954.html测试kafka producer发送消息 和consumer 接受消息报错 ,kafka版本kafka_2.9.2-0.8.1[root@master ~]# /export/kafka/...
分类:
其他好文 时间:
2014-10-11 18:40:56
阅读次数:
403
Set a multi node Apache ZooKeeper clusterOn every node of the cluster add the following lines to the filekafka/config/zookeeper.propertiesserver.1=zNo...
分类:
Web程序 时间:
2014-10-11 13:20:15
阅读次数:
253
1.前言首先,描述下应用场景:假设,公司有一款游戏,需要做行为统计分析,数据的源头来自日志,由于用户行为非常多,导致日志量非常大。将日志数据插入数据库然后再进行分析,已经满足不了。最好的办法是存日志,然后通过对日志的分析,计算出有用的数据。我们采用kafka这种分..
分类:
其他好文 时间:
2014-10-08 02:00:35
阅读次数:
562
kafka概念:
kafka是一个高吞吐量的流式分布式消息系统,用来处理活动流数据,比如网页的访问量pm,日志等,既能够实时处理大数据信息
也能离线处理。
特点:
1.高吞吐量
2.是一种显式的分布式系统,它假设,数据生产者(producer),代理(brokers)和数据使用者(consum...
分类:
其他好文 时间:
2014-09-29 20:09:12
阅读次数:
196
问题导读:1.zookeeper在kafka的作用是什么?2.kafka中几乎不允许对消息进行“随机读写”的原因是什么?3.kafka集群consumer和producer状态信息是如何保存的?4.partitions设计的目的的根本原因是什么?一、入门 1、简介 Kafka is a dist.....
分类:
其他好文 时间:
2014-09-29 11:14:57
阅读次数:
283
Getting Started ? 入门 1.1 Introduction ? 简介 ?? Kafka is a distributed, partitioned, replicated commit log service. It provides the functionality of a messaging system, ?but with a unique d...
分类:
其他好文 时间:
2014-09-28 20:10:56
阅读次数:
450
storm与kafka单机功能整合很顺利,但是到了storm集群环境和数据处理性能时则出现了一些问题,现将测试过程和问题简单记录如下: ? ? 性能指标:每分钟处理至少100万的信息(csv格式,100bytes左右),信息...
分类:
其他好文 时间:
2014-09-26 12:59:39
阅读次数:
228