Kafka快速入门(六)——Kafka集群部署一、Kafka集群部署方案规划1、操作系统选择通常,生产环境应该将Kafka集群部署在Linux操作系统上,原因如下:(1)Kafka客户端底层使用了Java的selector,selector在Linux上的实现机制是epoll,而在Windows平台上的实现机制是select,因此Kafka部署在Linux上能够获得更高效的I/O性能。(2)网络传
分类:
其他好文 时间:
2020-05-26 10:30:54
阅读次数:
69
在Kafka中,当有新消费者加入或者订阅的topic数发生变化时,会触发Rebalance(再均衡:在同一个消费者组当中,分区的所有权从一个消费者转移到另外一个消费者)机制,Rebalance顾名思义就是重新均衡消费者消费。Rebalance的过程如下: 第一步:所有成员都向coordinator发 ...
分类:
其他好文 时间:
2020-05-26 09:13:35
阅读次数:
98
我们可以使用 bin/kafka-topics.sh 命令对 Kafka 增加 Kafka 的分区数据,但是 Kafka 不支持减少分区数。 Kafka 分区数据不支持减少是由很多原因的,比如减少的分区其数据放到哪里去?是删除,还是保留?删除的话,那么这些没消费的消息不就丢了。如果保留这些消息如何放 ...
分类:
其他好文 时间:
2020-05-26 01:16:47
阅读次数:
283
ELK·Elastic Stack Elastic Stack就一套日志分析系统,前身叫ELK。 E:Elasticsearch L:Logstash,日志收集系统 K:Kibana,数据可视化平台 现加入Beats,是一个数据采集器,可以直接上报给elasticsearch,也可以通过logsta ...
分类:
其他好文 时间:
2020-05-26 00:52:11
阅读次数:
309
zookeeper 是一个分布式的协调组件,早期版本的kafka用zk做meta信息存储,consumer的消费状态,group的管理以及 offset的值。考虑到zk本身的一些因素以及整个架构较大概率存在单点问题,新版本中逐渐弱化了zookeeper的作用。新的consumer使用了kafka内部 ...
分类:
其他好文 时间:
2020-05-25 23:38:48
阅读次数:
296
unclean.leader.election.enable 为true的话,意味着非ISR集合的broker 也可以参与选举,这样有可能就会丢数据,spark streaming在消费过程中拿到的 end offset 会突然变小,导致 spark streaming job挂掉。如果unclea ...
分类:
其他好文 时间:
2020-05-25 14:01:02
阅读次数:
89
Kafka 是现在大数据中流行的消息中间件,其中 kafka 中由 topic 组成,而 topic 下又可以由多个 partition 构成。有时候我们在消费 kafka 中的数据想要保证消费 kafka 中的所有的分区下数据是全局有序的,这种情况下就需要将 topic 下的 partition ...
分类:
其他好文 时间:
2020-05-25 09:38:02
阅读次数:
231
KafkaStream概念及初识高层架构图KafkaStream是ApacheKafka从0.10版本引入的一个新Feature,它提供了对存储于Kafka内的数据进行流式处理和分析的功能。简而言之,KafkaStream就是一个用来做流计算的类库,与Storm、SparkStreaming、Flink的作用类似,但要轻量得多。KafkaStream的基本概念:KafkaStream是处理分析存储
Consumer之自动提交在上文中介绍了ProducerAPI的使用,现在我们已经知道如何将消息通过API发送到Kafka中了,那么现在的生产者/消费者模型就还差一位扮演消费者的角色了。因此,本文将介绍ConsumerAPI的使用,使用API从Kafka中消费消息,让应用成为一个消费者角色。还是老样子,首先我们得创建一个Consumer实例,并指定相关配置项,有了这个实例对象后我们才能进行其他的操