[徐培成系列实战课程]docker篇如何利用docker快速构建Spark独立模式的集群1、介绍利用docker容器技术快速构建跨节点的独立模型的Spark大数据集群。Spark是时下非常热门的大数据计算引擎,现在apche官方网站已经更新至2.3.1的版本,而且热度居高不下。很多企业越来越多的倾向于使用spark进行海量数据处理,主要是源于其高效快速的架构设计。docker也是非常热门的虚拟化技
分类:
其他好文 时间:
2019-02-18 16:07:00
阅读次数:
181
由阿里巴巴统一大数据计算平台MaxCompute研发团队,历经1年多研发,打破大数据、科学计算领域边界,完成第一个版本并开源。 Mars,一个基于张量的统一分布式计算框架。使用 Mars 进行科学计算,不仅使得完成大规模科学计算任务从MapReduce实现上千行代码降低到Mars数行代码,更在性能上有大幅提升。
分类:
其他好文 时间:
2019-01-21 17:11:04
阅读次数:
228
一、Spark概述 spark官网:spark.apache.org Spark是用的大规模数据处理的统一计算引擎,它是为大数据处理而设计的快速通用的计算引擎。spark诞生于加油大学伯克利分校AMP实验室。 mapreduce(MR)与spark的对比: 1.MR在计算中产生的结果存储在磁盘上,s ...
分类:
其他好文 时间:
2019-01-13 00:18:41
阅读次数:
204
前言 Spark作为计算引擎每天承载了大量的计算任务,为了监控集群的资源使用情况,对spark的监控也在所难免,Spark的监控有3个入口,1. Rest; 2.另一个是Metrics; 3. Log。 Rest 参考spark的rest接口文档 http://spark.apache.org/do ...
分类:
其他好文 时间:
2018-12-27 23:02:46
阅读次数:
172
今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和API诸如SparkStreaming、KafkaStreaming、Beam和Flink持续火爆。阿里巴巴自2015年开始改进Flink,并创建了内部分支Blink,目前服务于阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。12月20日,由阿里巴巴承办的FlinkForwardChina峰会在北京国家
分类:
其他好文 时间:
2018-12-21 17:39:16
阅读次数:
255
flink介绍:为世界上一些最苛刻的流处理应用程序提供支持 是一个框架,也是一个计算引擎。对无界和有界数据流进行有状态计算。设计为在所有常见集群中,以内存速度和任何规模计算。 任何类型的数据都是事件流,信用卡交易,传感器测量,机器日志或网站或移动应用上的用户交互。这些数据都是流。 1.无界流有一个开 ...
分类:
其他好文 时间:
2018-12-08 21:07:35
阅读次数:
229
日前,全球权威咨询与服务机构Forrester发布了《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》报告。这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称CDW)的测评。
分类:
其他好文 时间:
2018-12-06 20:17:54
阅读次数:
195
日前,全球权威咨询与服务机构Forrester发布了《The Forrester WaveTM: Cloud Data Warehouse, Q4 2018》报告。这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称CDW)的测评。报告对云数仓的 ...
分类:
其他好文 时间:
2018-12-06 17:49:38
阅读次数:
170
存在问题:跨库的数据汇总运算开发复杂、效率低。 产生的原因:单库的大表数据量巨大,条件限制又不能做分布式数据库,而大多数应用程序都严重依赖数据库的计算能力,但是跨库时数据库的计算能力常常不给力! 《体系结构方案 - 跨库数据运算》这篇文章采用专业计算引擎,不依赖于数据库的计算能力,可以有效降低跨库数 ...
分类:
其他好文 时间:
2018-12-05 16:13:29
阅读次数:
144
不修内功,难成大器。为了将Apache Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,在阿里云上的产品正式命名为实时计算,以Flink SQL为主要API,致力于打造一款全球领先的实时计算引擎。
分类:
其他好文 时间:
2018-11-27 17:55:57
阅读次数:
198