数据流容错机制 该文档翻译自Data Streaming Fault Tolerance,文档描述flink在流式数据流图上的容错机制。 一、介绍 flink提供了可以一致地恢复数据流应用的状态的容错机制,该机制保证即使在错误发生后,反射回数据流记录的程序的状态操作最终仅执行一次。值得注意的是,该保 ...
分类:
其他好文 时间:
2016-07-10 15:20:38
阅读次数:
507
这篇文章是对Flinkfault tolerance的一个总结。虽然还有些细节没有涉及到,但是基本的实现要点在这个系列中都已提及。回顾这个系列,每篇文章都至少涉及一个知识点。我们来挨个总结一下。...
分类:
Web程序 时间:
2016-06-21 07:07:32
阅读次数:
178
上一篇文章我们谈论了保存点的相关内容,其中就谈到了保存点状态的存储。这篇文章我们来探讨用户程序状态的存储,也是在之前的文章中多次提及的state backend(中文暂译为状态终端)。...
分类:
Web程序 时间:
2016-06-12 02:56:24
阅读次数:
243
上篇文章我们探讨了Zookeeper在Flink的fault tolerance中发挥的作用(存储/恢复已完成的检查点以及检查点编号生成器)。这篇文章会谈论一种特殊的检查点,Flink将之命名为——Savepoint(保存点)。...
分类:
Web程序 时间:
2016-06-04 20:57:13
阅读次数:
274
上一篇文章我们探讨了基于定时任务的周期性检查点触发机制以及基于Akka的actor模型的消息驱动协同机制。这篇文章我们将探讨Zookeeper在Flink的Fault Tolerance所起到的作用。其实,Flink引入Zookeeper的目的主要是让JobManager实现高可用(leader选举)。...
分类:
Web程序 时间:
2016-06-03 19:24:54
阅读次数:
286
继续Flink Fault Tolerance机制剖析。上一篇文章我们结合代码讲解了Flink中检查点是如何应用的(如何根据快照做失败恢复,以及检查点被应用的场景),这篇我们来谈谈检查点的触发机制以及基于Actor的消息驱动的协同机制。...
分类:
Web程序 时间:
2016-05-30 14:48:00
阅读次数:
243
因某些童鞋的建议,从这篇文章开始结合源码谈谈Flink Fault Tolerance相关的话题。上篇官方介绍的翻译是理解这个话题的前提,所以如果你想更深入得了解Flink Fault Tolerance的机制,推荐先读一下前篇文章理解它的实现原理。当然原理归原理,原理体现在代码实现里并不是想象中的那么直观。这里的源码剖析也是我学习以及理解的过程。...
分类:
Web程序 时间:
2016-05-26 07:35:17
阅读次数:
277
简介Apache Flink提供了一个失败恢复机制来使得数据流应用可以持续得恢复状态。这个机制可以保证即使线上环境的失败,程序的状态也将能保证数据流达到exactly once的一致性。注意这里也可以选择降级到保证at least once的一致性级别。...
分类:
Web程序 时间:
2016-05-23 15:23:35
阅读次数:
436
一、引言 数据一致性的重要性? 分布式领域CAP理论告诉我们,任何一个分布式系统都无法同时满足Consistency(一致性),Availability(可用性), Partition tolerance(分区容错性) 这三个基本需求。最多只能满足其中两项。 但是,一个分布式系统无论在CAP三者之间 ...
分类:
其他好文 时间:
2016-05-14 15:19:41
阅读次数:
293
一、CAP理论概述 一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。 二、CAP的定义 1、Consistency 一致性 一致性指"all nodes see the same ...
分类:
其他好文 时间:
2016-05-14 13:54:40
阅读次数:
148