码迷,mamicode.com
首页 >  
搜索关键字:计算引擎    ( 142个结果
6个人如何维护上千规模的大数据集群?
本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。 如果你想了解大数据的学习路线,想学习大数据知识以及需要免费的学习资料可以加群:78478943 ...
分类:其他好文   时间:2018-06-21 20:14:45    阅读次数:158
Structured Streaming教程(1) —— 基本概念与使用
近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming,它也是本系列的主角,废话不多说,进入正题吧! 简单介绍 在有过1.6的s ...
分类:其他好文   时间:2018-06-02 17:10:16    阅读次数:757
20180531早课记录22-Hive
1.hive是什么?基于Hadoop的一个数据仓库工具2.hive的默认使用什么数据库?生产上我们一般用什么?默认使用derby生产使用MySQL3.hive的元数据存储在哪?数据存储在哪?MySQLHDFS4.hive的SQL语法和什么类似和MySQL语法类似5.hive底层执行计算引擎是什么MapReduce/tez/spark6.hive使用mysql做元数据存储,那么部署过程中,注意什么注
分类:其他好文   时间:2018-05-31 15:34:32    阅读次数:163
spark概述和安装部署
1、spark概述 1、什么是spark 基于内存的计算引擎,它的计算速度非常快。但是spark仅仅只涉及到数据的计算,没有涉及到数据的存储。 2、为什么学习spark 比mapreduce计算速度快很多。 3、spark特点 1、速度快 比mapreduce在内存中快100x,在磁盘中快10x 1 ...
分类:其他好文   时间:2018-05-17 00:00:12    阅读次数:380
spark配置和word-count
Spark ------------ 快如闪电集群计算引擎。 应用于大规模数据处理快速通用引擎。 内存计算。 [Speed] 计算速度是hadoop的100x. Spark有高级DAG(Direct acycle graph,有向无环图)执行引擎。 [易于使用] 使用java,scala,pytho... ...
分类:其他好文   时间:2018-05-13 10:45:45    阅读次数:157
如何在万亿级别规模的数据量上使用Spark
一、前言 Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台 ...
分类:其他好文   时间:2018-05-11 17:23:04    阅读次数:169
Spark学习之路 (十一)SparkCore的调优之Spark内存模型
摘抄自:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮 ...
分类:其他好文   时间:2018-04-26 23:16:47    阅读次数:220
Spark(二): 内存管理
转自:http://www.cnblogs.com/tgzhu/p/5822370.html Spark 作为一个以擅长内存计算为优势的计算引擎,内存管理方案是其非常重要的模块; Spark的内存可以大体归为两类:execution和storage,前者包括shuffles、joins、sorts和 ...
分类:其他好文   时间:2018-04-16 18:37:45    阅读次数:176
初识Spark
Spark特点Spark是Apache的一个顶级项目,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要
分类:其他好文   时间:2018-04-09 21:03:18    阅读次数:194
浅聊Spark的应用场景有哪些?
Spark是一种与Hadoop相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下:  1.Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小;  2.由于RDD的特性,Spark不适用
分类:其他好文   时间:2018-04-03 17:35:48    阅读次数:127
142条   上一页 1 ... 6 7 8 9 10 ... 15 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!