码迷,mamicode.com
首页 >  
搜索关键字:集群计算    ( 95个结果
Docker中提交任务到Spark集群
1. 背景描述和需求 数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算。 接收程序部署在Docker中,主机不在Hadoop集群上。与Spark集群网络互通。 需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker ...
分类:其他好文   时间:2020-07-03 19:06:43    阅读次数:62
Apache Spark有哪些局限性
ApacheSpark是行业中流行和广泛使用的大数据工具之一。ApacheSpark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apacheflink。ApacheSpark简介ApacheSpark是为快速计算而设计的开源,闪电般快速的集群计算框架。ApacheSpark扩展了MapReduce模型,以有效地将其用于多种计算,包括流处理和交互式查询。ApacheSpark的主要功能
分类:Web程序   时间:2020-06-12 09:14:25    阅读次数:61
Apache Spark有哪些局限性
Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。 Apache Spark简介 Apache Spark是为快速计算而设计的开源,闪电般快速的集群计算框架。Apache Spa ...
分类:Web程序   时间:2020-06-11 19:59:25    阅读次数:79
Spark 概述
Apache Spark 是一个快速的、多用途的集群计算系统。在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处... ...
分类:其他好文   时间:2020-02-06 12:48:11    阅读次数:76
Spark学习之路 (一)Spark初识 [转]
官网介绍 什么是Spark 官网地址:http://spark.apache.org/ Apache Spark? 是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用 ...
分类:其他好文   时间:2020-01-26 19:08:26    阅读次数:75
GeoSpark入门-可视化
GeoSpark是一种用于大规模空间数据处理的集群计算。 GeoSpark通过一组out of the box空间弹性分布式数据集( SRDDs ) 扩展 Apache Spark,它可以跨机器高效地加载。处理、分析、展示大规模空间数据。 准备工作 1. Windows 和 spark 2. IDE ...
分类:其他好文   时间:2019-12-16 13:28:59    阅读次数:440
(10)横向扩展ceph集群
当集群容量或者计算资源达到一定限定时,就需要对集群进行扩容,扩容操作主要可以分为两种:1、纵向扩展:向已有节点中添加磁盘,容量增加,集群计算性能不变;2、横向扩展:添加新的节点,包括磁盘、内存、cpu资源,可以达到扩容性能提升的效果;一、在生产环境中避免新增节点影响性能,添加标识位生产环境中,一般不会在新节点加入ceph集群后,立即开始数据回填,这样会影响集群性能。所以我们需要设置一些标志位,来完
分类:其他好文   时间:2019-09-21 01:11:48    阅读次数:208
新闻实时分析系统 Spark2.X环境准备、编译部署及运行
1.Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则我们每 ...
分类:其他好文   时间:2019-07-01 10:25:19    阅读次数:138
Spark streaming storm map reduce区别与联系
1.1 基本概念 Storm是一个流式计算框架,Storm采用Java和Clojure编写,其优点是全内存计算,所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架,Spark基 ...
分类:其他好文   时间:2019-06-15 00:24:40    阅读次数:176
好程序员分享自学大数据入门干货
首先,提及大数据一词的概念。大数据本质还在于数据,但是它有着新的特征亮点。包括:数据来源广,数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等等。扩展讲大数据的4个基本特征,我们将进行下面额思考:1.数据来源广?广泛的数据来源从何而来,通过何种方式进行采集与汇总?相对应的我们出现Sqoop,Cammel,Da
分类:其他好文   时间:2019-06-02 11:44:27    阅读次数:123
95条   1 2 3 4 ... 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!