码迷,mamicode.com
首页 > 其他好文 > 详细

kafka文件存储结构和如何保证数据不丢失

时间:2019-05-14 19:31:44      阅读:231      评论:0      收藏:0      [点我收藏+]

标签:如何   归类   文件的   包含   利用   kafka   topic   大小   col   

一: kafka文件组成

基本组成:

1- broker 节点,多个broker构成一个集群

2- topic 对消息进行归类

3- producer 生产者

4- comsumer 消费者

5- consumerGroup 消费组

topic的组成:

1- partition  物理上数据存储的概念,一个topic包含多个partition,每个partition内部是有序的;每个partition是一个目录;

2- segment  一个partition包含多个segment,包含两种文件.index和.log。

这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位,20位数字字符长度,没有数字用0填充,如下:

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index索引文件存储大量的元数据,log数据文件存储大量的消息。

partition内部读取数据的流程为(例如读取offset=170418的消息):

1- 首先查找segment文件。确认数据存储在00000000000000170410.index和00000000000000170410.log这两个文件中。

2- 到index文件中查找,log数据存贮的位置信息。

3- 从log日志中读取所需日志信息。

 

二:数据可靠性和持久性保证

1- producer端

request.required.acks参数进行配置,可靠性级别为:

1(默认) producer写到kafka中,收到leader的反馈信息后,下确认其写入成功。leader宕机,会丢失数据。

0 producer端不会收到任何的反馈信息,数据可靠性很低。

-1 producer端需要确认leader和follower都反馈成功,才认为写入成功。和min.insync.replicas参数(最小同步副本数,必须大于等于2)一起使用。利用副本冗余信息来确保数据不会丢失。但是可以会重复传输。

2- comsumer端

producer.type=sync一定要设置成同步的方式。

consumer先读取消息并处理,在commit。这种方式可以保证至少一次;

consumer 先读取消息,再commit,在处理,这种方式会丢失数据;

3- 自定义实现,缓存消息去重

 Consumer保持无状态和幂等性就可以了

kafka文件存储结构和如何保证数据不丢失

标签:如何   归类   文件的   包含   利用   kafka   topic   大小   col   

原文地址:https://www.cnblogs.com/parent-absent-son/p/10863861.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!