1.什么是结构化流. 结构化流(Structured Streaming),是一种基于Spark-SQL引擎构建的,可容错的,可扩展的流处理引擎. 它以微批量计算的形式来表达流式计算,随着流式数据持续到达,它能持续的进行处理并更新最终计算结果. 它使用Spark-SQL带来的丰富的API,来表示流聚 ...
分类:
其他好文 时间:
2018-07-06 01:45:33
阅读次数:
169
Spark 实践——基于 Spark Streaming 的实时日志分析系统 本文基于《Spark 最佳实践》第6章 Spark 流式计算。 我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景。比如百度统计,它可以做流量分析、来源分析、网站分 ...
分类:
其他好文 时间:
2018-05-15 22:43:43
阅读次数:
509
本次DTCC数据库技术大会是第9届了,这次大会虽然有不少公司的产品推介,总体来说还是有不少干货的。 专场较多,有选择地主要听了大数据实践跟流式计算这块。网易跟滴滴的分享比较不错。 了解到了现在大家是用spark streaming/ Flink来进行流式计算的比较多。 我们之前都是用kafka+st ...
分类:
数据库 时间:
2018-05-13 12:03:59
阅读次数:
197
1. 背景介绍 1.1 离线计算是什么 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示; 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据 1.2 流式计算是什么 流式计算:数据实时产生、数据实时传输、数据实时计算、实时 ...
分类:
其他好文 时间:
2018-05-06 18:55:57
阅读次数:
203
概念 实时流式计算: 大数据环境下,流式数据将作为一种新型的数据类型,这种数据具有连续性、无限性和瞬时性。是实时数据处理所面向的数据类型,对这种流式数据的实时计算就是实时流式计算。 特征 实时流式计算与传统的数据处理技术不同,其具有一下特点: 低延迟:从处理的数据角度来看,每一条数据都可以在有限的时 ...
分类:
其他好文 时间:
2018-04-23 22:38:43
阅读次数:
168
从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方式实现了实时处理框架。为进一步了解spark streaming的相关内容,飞马网于3月20日晚邀请到历任百度大数据的高级工程师—王富平,在线上直播中,王老师针对spark streaming高级特性
分类:
其他好文 时间:
2018-03-21 21:14:25
阅读次数:
228
1、Spark是什么 Spark是一个用来实现快速而通用的集群计算的平台。 2、Spark是一个大一统的软件栈 Spark项目包含多个紧密集成的组件。首先Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。 Spark的个组件如 ...
分类:
其他好文 时间:
2018-02-07 12:09:32
阅读次数:
194
1 流式计算 流式计算:数据实时产生、实时传输、实时计算、实时展示 代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。 一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结 ...
分类:
其他好文 时间:
2018-01-24 12:41:12
阅读次数:
231