码迷,mamicode.com
首页 >  
搜索关键字:流式计算    ( 138个结果
流式计算(一)-Java8Stream
大约各位看官君多少也听说了Storm/Spark/Flink,这些都是大数据流式处理框架。如果一条手机组装流水线上不同的人做不同的事,有的装电池,有的装屏幕,直到最后完成,这就是典型的流式处理。如果手机组装是先全部装完电池,再交给装屏幕的组,直到完成,这就是旧式的集合式处理。今天,就来先说说JDK8 ...
分类:编程语言   时间:2019-12-16 15:00:46    阅读次数:829
Spark相关知识
基本概念: Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度。是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。RDD:是spark核心数据处理模型,弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一 ...
分类:其他好文   时间:2019-11-26 16:12:00    阅读次数:95
事件时间(event time)与水印(watermark)
1. 事件时间和水印诞生的背景 在实际的流式计算中数据到来的顺序对计算结果的正确性有至关重要的影响 比如:某数据源中的某些数据由于某种原因(如:网络原因,外部存储自身原因)会有2秒的延时,也就是在实际时间的第1秒产生的数据有可能在第3秒中产生的数据之后到来。 假设在一个5秒的滚动窗口中,有一个Eve ...
分类:其他好文   时间:2019-11-13 14:44:46    阅读次数:94
flink有什么优势值得大家这么热衷
flink 通过实现了 Google Dataflow 流式计算模型实现了高吞吐、低延迟、高性能兼具实时流式计算框架。 同时 flink 支持高度容错的状态管理,防止状态在计算过程中因为系统异常而丢失,flink 周期性地通过分布式快照技术 Checkpoints 实现状态的持久化维护,使得即使在系 ...
分类:其他好文   时间:2019-09-19 01:24:48    阅读次数:129
Structured Streaming曲折发展史
Structured Streaming曲折发展史 1.1. Spark Streaming 在2.0之前,Spark Streaming作为核心API的扩展,针对实时数据流,提供了一套可扩展、高吞吐、可容错的流式计算模型。Spark Streaming会接收实时数据源的数据,并切分成很多小的bat ...
分类:其他好文   时间:2019-09-11 10:00:22    阅读次数:114
什么是流式计算?
一、大数据的计算模式在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求。
分类:其他好文   时间:2019-09-09 21:04:16    阅读次数:108
流数据处理介绍
原文引用https://www.dazhuanlan.com/2019/08/25/5d625f4bb2308/ Apache Flink是一个分布式流计算引擎,开发者可以在其上快速实现流式计算。Apache Flink起源2009年在德国柏林理工大学成立的‘Stratosphere’项目。2014... ...
分类:其他好文   时间:2019-08-25 20:05:05    阅读次数:140
大数据架构(PB级)
1.随着互联网快速发展,数据量的快速膨胀,我们日增3000多亿数据量,因此需要针对PB级存储、几百TB的增量数据处理架构设计 2.系统逻辑划分总图: 暂不便透露 3.系统架构图: 4.大数据计算引擎我们是采用Apache Flink流式计算框架,并对其进行了一些优化,目前在生产环境,已经基本稳定运行 ...
分类:其他好文   时间:2019-08-15 12:51:51    阅读次数:131
大数据基础学习
什么是大数据?举例:1、商品推荐:问题:(1)大量的订单如何存储?(2)大量的订单如何计算?2、天气预报:问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群251956502这样大家学习的话就比较方便,还能够共同交流和分享资料什么是大数据,本质?(1)数据的存储:分布式文件系统(分布式存储)(2)数据的计算:分布式计算Ja
分类:其他好文   时间:2019-07-15 15:58:47    阅读次数:116
Kafka内部实现原理
Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn公司开发,并于 2011年初开源。 ...
分类:其他好文   时间:2019-07-11 12:25:26    阅读次数:128
138条   上一页 1 2 3 4 5 ... 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!