搜索关键字：计算引擎，搜索到142个结果！码迷,mamicode.com！

6个人如何维护上千规模的大数据集群？

本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一，降低用户接入门槛；如何让用户自助分析任务异常及失败原因，以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗，监控集群状况，监控异常任务等。如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：78478943 ...

分类：其他好文时间：2018-06-21 20:14:45 阅读次数：158

Structured Streaming教程(1) —— 基本概念与使用

近年来，大数据的计算引擎越来越受到关注，spark作为最受欢迎的大数据计算框架，也在不断的学习和完善中。在Spark2.x中，新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming，它也是本系列的主角，废话不多说，进入正题吧！简单介绍在有过1.6的s ...

分类：其他好文时间：2018-06-02 17:10:16 阅读次数：757

20180531早课记录22-Hive

1.hive是什么?基于Hadoop的一个数据仓库工具2.hive的默认使用什么数据库?生产上我们一般用什么?默认使用derby生产使用MySQL3.hive的元数据存储在哪?数据存储在哪?MySQLHDFS4.hive的SQL语法和什么类似和MySQL语法类似5.hive底层执行计算引擎是什么MapReduce/tez/spark6.hive使用mysql做元数据存储，那么部署过程中，注意什么注

分类：其他好文时间：2018-05-31 15:34:32 阅读次数：163

spark概述和安装部署

1、spark概述 1、什么是spark 基于内存的计算引擎，它的计算速度非常快。但是spark仅仅只涉及到数据的计算，没有涉及到数据的存储。 2、为什么学习spark 比mapreduce计算速度快很多。 3、spark特点 1、速度快比mapreduce在内存中快100x，在磁盘中快10x 1 ...

分类：其他好文时间：2018-05-17 00:00:12 阅读次数：380

spark配置和word-count

Spark ------------ 快如闪电集群计算引擎。应用于大规模数据处理快速通用引擎。内存计算。 [Speed] 计算速度是hadoop的100x. Spark有高级DAG(Direct acycle graph,有向无环图)执行引擎。 [易于使用] 使用java,scala,pytho... ...

分类：其他好文时间：2018-05-13 10:45:45 阅读次数：157

如何在万亿级别规模的数据量上使用Spark

一、前言 Spark作为大数据计算引擎，凭借其快速、稳定、简易等特点，快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中，对于Spark的理解，希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台 ...

分类：其他好文时间：2018-05-11 17:23:04 阅读次数：169

Spark学习之路（十一）SparkCore的调优之Spark内存模型

摘抄自：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index.html 一、概述 Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮 ...

分类：其他好文时间：2018-04-26 23:16:47 阅读次数：220

Spark(二): 内存管理

转自：http://www.cnblogs.com/tgzhu/p/5822370.html Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和 ...

分类：其他好文时间：2018-04-16 18:37:45 阅读次数：176

初识Spark

Spark特点Spark是Apache的一个顶级项目，ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要

分类：其他好文时间：2018-04-09 21:03:18 阅读次数：194

浅聊Spark的应用场景有哪些？

Spark是一种与Hadoop相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态系统，主要应用场景如下：　　1.Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小;　　2.由于RDD的特性，Spark不适用

分类：其他好文时间：2018-04-03 17:35:48 阅读次数：127

共142条上一页 1 ... 6 7 8 9 10 ... 15 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)