一.基础知识1.SparkSpark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。Spark的各个组件2.HadoopHad
分类:
其他好文 时间:
2018-11-25 16:22:04
阅读次数:
147
引言 Apache Flink是面向数据流处理和批处理的分布式开源计算框架,2016年阿里巴巴引入Flink框架,改造为Blink。2017年,阿里整合了所有流计算产品,决定以Blink引擎为基础,打造一款全球领先的实时计算引擎。当年双11,Blink支持了二十多个事业部/群,同时运行了上千个实时计 ...
分类:
其他好文 时间:
2018-11-23 14:06:25
阅读次数:
181
一背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架,2013年被Apache基金会接管,是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。二特性高效:Spark提供Cache机制,支持需要反复迭代的计算
分类:
其他好文 时间:
2018-11-15 12:03:46
阅读次数:
205
基于hadoop:存储真实数据用hdfs、计算引擎之一是mr,元数据一般存储在mysql或其他关系型数据库中 用于离线分析olap,数据仓库软件 关系型数据库三范式: 每个列必须是原子性的不可拆分 非关键属性必须依赖关键属性的全部字段,而不能仅依赖关键属性的部分字段 没关键属性只能依赖关键属性,而不 ...
分类:
其他好文 时间:
2018-11-14 20:52:55
阅读次数:
201
相比SparkStream、KafkaStream、Storm等,为什么阿里会选择Flink作为新一代流式计算引擎?前期经过了哪些调研和对比?大沙:我们是2015年开始调研新一代流计算引擎的。我们当时的目标就是要设计一款低延迟、exactlyonce、流和批统一的,能够支撑足够大体量的复杂计算的引擎。Sparkstreaming的本质还是一款基于microbatch计算的引擎。这种引擎一个天生的缺
分类:
其他好文 时间:
2018-11-13 10:26:17
阅读次数:
192
内存计算指数据事先存储于内存,各步骤中间结果不落硬盘的计算方式,适合性能要求较高,并发较大的情况。 HANA、TimesTen等内存数据库可实现内存计算,但这类产品价格昂贵结构复杂实施困难,总体拥有成本较高。本文介绍的集算器同样可实现内存计算,而且结构简单实施方便,是一种轻量级内存计算引擎。 集算器 ...
分类:
其他好文 时间:
2018-10-18 22:02:36
阅读次数:
235
namenode节点上配置Map/Reduce计算引擎跑在yarn这个资源调度平台上;<property><name>mapreduce.framework.name</name><value>yarn</value></property>namenode配置yarn-site.xml文件指定resourcemanager在m
分类:
其他好文 时间:
2018-10-09 17:06:08
阅读次数:
283
一. spark 概述 1.是什么: ? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。2012年,它是由加州伯克利大学AMP实 验室开源的类 Hadoop MapReduce 的通用并行计算框架,Spark 拥有Hadoop MapReduce 所具有的优点;但不 同于 ...
分类:
其他好文 时间:
2018-08-30 11:11:38
阅读次数:
198
介绍 1.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark S ...
分类:
其他好文 时间:
2018-08-28 20:20:28
阅读次数:
145
spark是一个用于大规模数据处理的统一计算引擎。适用于各种各样原先需要多种不同的分布式平台处理的场景,包括批处理、迭代计算、交互式查询、流处理。通过统一的框架将各种处理流程整合到一起。本文主要讲解spark特性、spark生态栈、spark用户及用途、spark简史。
分类:
其他好文 时间:
2018-08-26 01:19:47
阅读次数:
164