gRPC 是一种与语言无关的高性能远程过程调用 (RPC) 框架。 gRPC 的主要优点是: 现代高性能轻量级 RPC 框架。 协定优先 API 开发,默认使用协议缓冲区,允许与语言无关的实现。 可用于多种语言的工具,以生成强类型服务器和客户端。 支持客户端、服务器和双向流式处理调用。 使用 Pro ...
Flink对于流处理架构的意义十分重要,Kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠Flink来完成。 在 "Streaming 大数据的未来" 一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具。而Flink对两者都有非常好的支持。 Flink对于正确性的 ...
分类:
其他好文 时间:
2019-09-02 14:01:54
阅读次数:
92
前言: 之前在学习JDK1.8的时候接触到了1.8的两个重要的新特新,一个是lambda函数式编程、另一个则是接口的变化,在这里还有一个非常重要的内容就是strema流式处理方式,在传统的java代码中,如果我们要对一个集合做一些操作,就必须遍历这个集合那个集合中的元素逐个操作,而在JDK1.8引入 ...
分类:
其他好文 时间:
2019-09-01 18:32:38
阅读次数:
128
Kafka简介 定义 Kafka是一个分布式流式处理平台,它提供三种角色:消息系统,存储系统,流式处理平台 组成 Kafka架构体系为实现消息模块包括了若干producer,broker和consumer,还有zookeeper集群来负责元数据的管理和控制器选举等操作。 生产者 主线程创建消息Pro ...
分类:
其他好文 时间:
2019-08-29 09:56:19
阅读次数:
96
一. 流式处理简介 在我接触到java8流式处理的时候,我的第一感觉是流式处理让集合操作变得简洁了许多,通常我们需要多行代码才能完成的操作,借助于流式处理可以在一行中实现。 比如我们希望对一个包含整数的集合中筛选出所有的偶数,并将其封装成为一个新的List返回,那么在java8之前,我们需要通过如下 ...
分类:
编程语言 时间:
2019-08-22 19:14:07
阅读次数:
85
SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)进行类似Map、Reduce和Join等复杂操作,并将结果保存到外部文件系统、数据库或应用到实时仪表盘。 同Spark初始化需要创建 ...
分类:
其他好文 时间:
2019-06-21 12:55:32
阅读次数:
92
一、Time 在Flink的流式处理中,会涉及到时间的不同概念 Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳 Ingestion Time:是数据进入Flink的时间 Proces ...
写在前面 本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理 本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理 一、概述 Spark Streaming顾名思义是spark的流式处理框架,是面向海量数据实现高吞吐量、高可用的分布式 ...
分类:
其他好文 时间:
2019-04-30 17:20:59
阅读次数:
145
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一、SparkStreaming简介SparkStreaming是流式处理框架,是Spar ...
分类:
其他好文 时间:
2019-04-18 10:51:49
阅读次数:
184