Spark 一种基于内存的快速、通用、可扩展的大数据分析引擎; 内置模块: Spark Core(封装了rdd、任务调度、内存管理、错误恢复、与存储系统交互); Spark SQL(处理结构化数据)、Spark Streaming(对实时数据进行流式计算) 、 Spark Mlib(机器学习程序库包 ...
分类:
其他好文 时间:
2019-04-06 00:35:59
阅读次数:
155
一 Kafka 概述1.1 Kafka 是什么在流式计算中,Kafka 一般用来缓存数据,Storm 通过消费 Kafka 的数据进行计算。1)Apache Kafka 是一个开源消息系统(微信公众号、QQ、微信等群),由 Scala 写成。是由 Apache 软件基金会开发的一个开源消息系统项目。 ...
分类:
其他好文 时间:
2019-03-19 17:09:41
阅读次数:
558
1.分布式应用服务开发的一站式解决方案 Spring Cloud Alibaba Spring Cloud Alibaba 致力于提供分布式应用服务开发的一站式解决方案。此项目包含开发分布式应用服务的必需组件,方便开发者通过 Spring Cloud 编程模型轻松使用这些组件来开发分布式应用服务。 ...
分类:
编程语言 时间:
2019-02-21 21:35:04
阅读次数:
216
前言 昨天夜里,突然冒出来的想法,应该有规划性地学习分布式系统,带着目的及问题去学习。结合从寒假期间看的,大数据及分布式文章中的知识,加之自己的思考及想法,写下了这篇文章。 由于笔者对分布式系统研究水平尚处入门,文章着笔较浅,并希望此文能抛砖引玉,同时欢迎读者勘误及指教。 从单机到分布式 其实从宏观 ...
分类:
其他好文 时间:
2019-02-20 20:15:41
阅读次数:
236
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream。接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以及主要的两种数据集KStream和KTable。并且分析了Kafka Stream如何解决流式系统中... ...
分类:
其他好文 时间:
2019-02-15 16:00:50
阅读次数:
162
一、SparkStreaming的介绍(1)为什么要有SparkStreaming? Hadoop的MapReduce及SparkSQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以解决这些问题。目前有三种比较常用的流式计算框架,它们分别是Storm,SparkStreaming和fink。(2)SparkStreamin
分类:
其他好文 时间:
2019-01-06 22:04:55
阅读次数:
190
我们在上一篇文章中给大家介绍了批处理系统以及迭代计算系统。这两种方法都是比较抽象的,我们在这篇文章中给大家介绍一种Facebook经常使用的流式计算系统,希望这篇文章能够给大家带来帮助。 ...
分类:
其他好文 时间:
2019-01-04 14:45:25
阅读次数:
412
大数据的出现使得数据的处理效率提高不少,这得益于大数据的数据处理系统,而大数据的处理系统有很多。就目前而言,主要的大数据处理系统有数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统。下面我们就给大家介绍一下数据查询分析计算系统。 ...
分类:
其他好文 时间:
2019-01-04 14:33:51
阅读次数:
565
刚刚说的:收集数据 - 放到DB中 - 取出来分析 的传统的流程,叫做批量计算,顾名思义,将数据存起来,批量进行计算。 而流式计算,也跟名字一样,是对数据流进行实时计算,它不是更快的批计算,可以说,是完全不同的处理思路。 通过与批量计算进行对比的方式,介绍下其原理: (1) 与批量计算那样慢慢积累数 ...
分类:
其他好文 时间:
2018-12-26 16:48:15
阅读次数:
469
一、Storm与Spark、Hadoop三种框架对比 Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算 ...
分类:
其他好文 时间:
2018-12-22 20:35:42
阅读次数:
191