记录下和kafka相关的概念原理以及常用工具,文中很多理解参考文末博文、书籍还有前辈。 kafka特性 kafka是由领英(LinkedIn)提供给Apache,是一个消息引擎,现在发展成为还可以进行流处理(kafka streams)的一个平台,以下是它的架构图。 (1)用的是发布 订阅模式,多个 ...
分类:
其他好文 时间:
2020-03-21 00:00:40
阅读次数:
74
在很多的流处理框架的介绍中,都会说kafka是一个可靠的数据源,并且推荐使用Kafka当作数据源来进行使用。这是因为与其他消息引擎系统相比,kafka提供了可靠的数据保存及备份机制。并且通过消费者位移这一概念,可以让消费者在因某些原因宕机而重启后,可以轻易得回到宕机前的位置。 但其实kafka的可靠 ...
分类:
其他好文 时间:
2020-03-16 19:18:08
阅读次数:
78
DataStream API Apache Flink 提供了 DataStream API 来实现稳定可靠的、有状态的流处理应用程序。 Flink 支持对状态和时间的细粒度控制,以此来实现复杂的事件驱动数据处理系统。 本文将搭建一个针对可疑信用卡交易行为的反欺诈检测系统。 例子分析 FraudDe ...
1.kafka概述##1.1kafka简介ApacheKafka是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统,使用Scala与Java语言编写,能够将消息从一个端点传递到另一个端点,较之传统的消息中间件(例如ActiveMQ、RabbitMQ),Kafka具有高吞吐量、内置分区、支持消息副本和高容错的特性,非常适合大规模消息处理应用程序。Kafka官网:http://kaf
分类:
其他好文 时间:
2020-03-09 13:12:17
阅读次数:
58
[toc] 1. "Kafka简介" Kafka是一种计算框架,结合了之前的MapReduce批处理和流式计算为一体,可以处理历史数据和实时数据。 流平台具有三个关键功能: 发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 处理记录流。 Kafka通常用于两大类应用 ...
分类:
其他好文 时间:
2020-03-07 21:04:52
阅读次数:
77
[TOC] 介绍 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 安装 集群,需要把集群状态保存在 上,所以需要先安装 。 环境准备 主机名 | 系统 | I ...
分类:
其他好文 时间:
2020-03-03 20:52:02
阅读次数:
83
Java中IO主要分为字符流和字节流,字符流处理的单元为2个字节的Unicode的字符,而字节流处理的单元为一个字节。Java内用Unicode编码存储字符,字符流处理类负责将外部的其他编码的字符流和java内Unicode字符流之间的转换。而类InputStreamReader和OutputStr... ...
分类:
编程语言 时间:
2020-02-28 12:01:11
阅读次数:
75
At most Onece:最多一次,如果算子处理事件失败,事件将不再尝试该事件。 At Least Onece:至少一次,如果算子处理事件失败,算子会再次尝试该处理事件,直到有一次成功。 Exactly Once:严格一次,通常有两种方法实现: 1.分布式快照+状态检查点,思想就是对比检查点和分布 ...
分类:
其他好文 时间:
2020-02-21 14:26:40
阅读次数:
71
起源 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。此外,Kafk ...
分类:
其他好文 时间:
2020-02-17 14:03:42
阅读次数:
83
:fist_right: 示例 例如,海底捞的服务员(线程),轮流处理每位客人的点餐(任务),如果为每位客人都配一名专属的服务员,那 么成本就太高了(对比另一种多线程设计模式:Thread Per Message) 注意,不同任务类型应该使用不同的线程池,这样能够避免饥饿,并能提升效率 例如,如果一 ...
分类:
编程语言 时间:
2020-02-09 20:02:16
阅读次数:
95