Apache Kafka是一个开源、分布式发布订阅消息系统,主要设计了下面这些特性:
l 持久化消息:从大数据中提取真正的数据值,任何类型的数据丢失都不能够再获取。Apache Kafka提供了持续时间存储大容量消息,其容量按顺心可以达到TB。
l 高吞吐量:为大数据而生,Kafka就是运行在商业硬件上而设计的,它支持每秒百万消息量。
l 分布式:A...
分类:
其他好文 时间:
2014-08-29 11:03:47
阅读次数:
235
最近在使用flume进行文件读取时遇到一个问题:接收到的信息未按照预想的数据格式输出。 ????文件格式: xxx,xxx,xxx,xxx,xxx,xxx\r
xxx,xxx,xxx,xxx,xxx,xxx\r
xxx,xxx,xxx,xxx,xxx,xxx\r
xxx,xxx,xxx,...
分类:
其他好文 时间:
2014-08-27 19:04:38
阅读次数:
301
来自:http://blog.xlvector.net/2014-01/flume-spooldir-source-problem/(自己写的插件,数据序列化,格式化抛出的异常都会导致flume停止,不能继续取数据,异常可以自己处理)最近在用Flume做数据的收集。用到了里面的Spooldir的源在...
分类:
其他好文 时间:
2014-08-25 18:57:04
阅读次数:
248
flume-ng 中 selector的使用
在最近的项目中,需要用到flume。使用的是非常常见的结构:netcat source开启监听端口,接收发送来的报文消息,通过memory channel与sink(重写的roll file sink)写到本地磁盘。特别的是,这里需要根据报文的类型来发往不同的sink(暂且命名为sink1与sink2)。根据该需求,考虑有两种解决方案。...
分类:
其他好文 时间:
2014-08-21 17:08:14
阅读次数:
1607
1.??? 配置 ?? Broker主要配置 ? 参数 默认值 说明(解释) broker.id =0 每一个broker在集群中的唯一表示,要求是正数。当该服务器的IP地址发生改变时,broker.id没有变化,则不会影响consumers的消息情况 ...
分类:
其他好文 时间:
2014-08-21 11:45:34
阅读次数:
389
目录: 一、Flume、Kafka、Storm是什么,如何安装? 二、Flume、Kafka、Storm如何结合使用? 1) 原理是什么? 2) Flume和Kafka的整合 3) Kafka和Storm的整合 4) Flume、Kafka、Storm的整合 一、Flu...
分类:
其他好文 时间:
2014-08-19 20:39:55
阅读次数:
750
随着业务的发展, 服务器所在网段/机群不允许kafka继续保留在那, 需要移动到先机器上.哎呀上面是废话,总的说就是: 2台老kafka不要了,数据要迁移到新的2台kafka上面.要求数据不丢失通过查询官网,并无直接切换的命令,当前版本是kafka 0.8.1, 说是0.8.2才提供老机器的退役功能...
分类:
其他好文 时间:
2014-08-19 18:25:35
阅读次数:
196
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会...
分类:
其他好文 时间:
2014-08-19 13:03:24
阅读次数:
475
一、入门 1.??? 简介 Kafka is a distributed, partitioned, replicated commit log service。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进...
分类:
其他好文 时间:
2014-08-18 14:40:12
阅读次数:
315
背景:
当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战:
如何收集这些巨大的信息如何分析它 如何及时做到如上两点
以上几个挑战形成了一个业务需求模型,即生产者生产(produce)各种信息,消费者消费(consume)(处理分析)这些信息,而在生产者与消费者之间,需要一个沟通两...
分类:
其他好文 时间:
2014-08-18 12:38:34
阅读次数:
191