也还是继续昨天的话题说吧。 纯手机手打,感觉有用麻烦点个赞。 开头还是那句话,spark是以批处理起家,发展流处理,所以微批处理吞吐优先,可以选用。 flink以实时处理起家,然后去做批处理,所以更适合实时性高的场景。 那么生产中真的都要求那么高的实时性吗? 比如10wqps的数据,假如实时处理,采 ...
分类:
其他好文 时间:
2019-09-05 21:45:24
阅读次数:
133
一、简介 下图为 Strom 的运行流程图,在开发 Storm 流处理程序时,我们需要采用内置或自定义实现 (数据源) 和 (处理单元),并通过 将它们之间进行关联,形成 。 二、IComponent接口 接口定义了 Topology 中所有组件 (spout/bolt) 的公共方法,自定义的 sp ...
分类:
其他好文 时间:
2019-09-03 16:16:50
阅读次数:
124
一、Storm核心概念 1.1 Topologies(拓扑) 一个完整的 Storm 流处理程序被称为 Storm topology(拓扑)。它是一个是由 和 通过 连接起来的有向无环图,Storm 会保持每个提交到集群的 topology 持续地运行,从而处理源源不断的数据流,直到你将主动其杀死 ...
分类:
其他好文 时间:
2019-09-03 09:49:19
阅读次数:
101
一、Storm 1.1 简介 Storm 是一个开源的分布式实时计算框架,可以以简单、可靠的方式进行大数据流的处理。通常用于实时分析,在线机器学习、持续计算、分布式 RPC、ETL 等场景。Storm 具有以下特点: + 支持水平横向扩展; + 具有高容错性,通过 ACK 机制每个消息都不丢失; + ...
分类:
其他好文 时间:
2019-09-03 09:38:28
阅读次数:
91
Flink对于流处理架构的意义十分重要,Kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠Flink来完成。 在 "Streaming 大数据的未来" 一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的 ...
分类:
其他好文 时间:
2019-09-02 14:01:54
阅读次数:
92
Flink流处理时间方式 EventTime 时间发生的时间,例如:点击网站上的某个链接的时间 IngestionTime 某个Flink节点的source operator接收到数据的时间,例如:某个source消费到kafka中的数据 ProcessingTime 某个Flink节点执行某个op... ...
分类:
其他好文 时间:
2019-08-31 19:01:39
阅读次数:
124
用优雅的方式写出ArrayList 中的值得条件筛选 主要用到的java8中lambda的表达式 ...
分类:
其他好文 时间:
2019-08-29 23:30:26
阅读次数:
94
1、日志的相关概念 日志是一种可以追踪某些软件运行时所发生事件的方法。软件开发人员可以向他们的代码中调用日志记录相关的方法来表明发生了某些事情。一个事件可以用一个可包含可选变量数据的消息来描述。此外,事件也有重要性的概念,这个重要性也可以被称为严重性级别(level) 日志的作用 通过log的分析, ...
分类:
其他好文 时间:
2019-08-29 23:26:19
阅读次数:
83
用优雅的方式写出ArrayList 中的值得条件筛选 主要用到的java8中lambda的表达式 ...
分类:
其他好文 时间:
2019-08-29 23:02:03
阅读次数:
137
本章节根据源代码分析Spark Structured Streaming(Spark2.4)在进行DataSourceProvider查找的流程,首先,我们看下读取流数据源kafka的代码: sparkSession.readStream()返回的对象是DataSourceReader DataSo ...
分类:
其他好文 时间:
2019-08-27 23:21:44
阅读次数:
195