一. YARN的理解YARN是Hadoop 2.x版本的产物,它最基本的设计思想是将JobTracker的两个主要功能,即资源管理,作业调度和监控分解成为两个独立的进程。再详细介绍Spark程序工作过程前,先简单的介绍一下YARN,即Hadoop的操作系统,不仅支持MapReduce计算框架,而且还...
分类:
其他好文 时间:
2015-10-03 14:24:08
阅读次数:
288
Tachyon是AmpLab的李浩源所开发的一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在Tachyon里的文件。Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件落地到分布式内存文件系统中来达到共享内存,从而提高效率。...
分类:
其他好文 时间:
2015-09-16 14:22:02
阅读次数:
339
概述
什么是Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习...
分类:
其他好文 时间:
2015-08-31 13:39:50
阅读次数:
279
一、Spark是什么
1、与Hadoop的关系
如今Hadoop已经不能狭义地称它为软件了,Hadoop广泛的说可以是一套完整的生态系统,可以包括HDFS、Map-Reduce、HBASE、HIVE等等。。
而Spark是一个计算框架,注意,是计算框架
其可以运行在Hadoop之上,绝大部分情况下是基于HDFS
说代替Hadoop其实是代替Hadoop中的Map-Reduce,用来解决M...
分类:
其他好文 时间:
2015-08-30 01:07:34
阅读次数:
1083
Hadoop 框架包含两个核心组件:HDFS 和 MapReduce 其中 HDFS 是文件存储系统,负责数据存储; MapReduce 是计算框架,负责数据计算Hbase 数据库核心组件4个。 客户端Client、协调服务模块ZooKeeper、 主节点HMaster 和 Region节点 HRe...
分类:
其他好文 时间:
2015-08-27 12:59:36
阅读次数:
305
前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。 另外Spark是一个快速的内存计算框架,同时是一个并行运算的框架,在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。...
分类:
数据库 时间:
2015-08-27 11:06:02
阅读次数:
287
Mapreduce 是谷歌提出的一个分布式计算框架, 利用该框架, 能够让用户方便地利用多机并行处理数据。 该框架有两个重要的函数: Map 和 Reduce, Map 函数对整个输入数据进行处理, 按照用户定义的处理方式, 从输入的数据中产生中间键值对( key, value)。Reduce 函数对这些键值对进行处理, 相同 key 的键值...
分类:
编程语言 时间:
2015-08-25 21:44:34
阅读次数:
227
原文地址:http://soft.chinabyte.com/database/431/12914931.shtml概述 什么是Spark ◆ Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于map reduce算法实.....
分类:
其他好文 时间:
2015-08-21 15:17:40
阅读次数:
278
2 Storm的基本组成部分 经过前一部分,我们可以搭建起Storm的执行环境,并可以通过浏览器打开对应的管理页面。如果已经成功的到达这一步,那么恭喜你,Storm的框架已经搭建成功,接下来就是Storm具体该如何应用了...
分类:
其他好文 时间:
2015-08-19 17:54:44
阅读次数:
196
这篇是计算机类的优质预售推荐>>>>《Spark机器学习》
当机器学习遇上最流行的并行计算框架Spark......
编辑推荐
Apache Spark是一个分布式计算框架,专为满足低延迟任务和内存数据存储的需求而优化。现有并行计算框架中,鲜有能兼顾速度、可扩展性、内存处理以及容错性,同时还能简化编程,提供灵活、表达力丰富的强大API的,Apache
Spark就是这...
分类:
其他好文 时间:
2015-08-18 10:17:25
阅读次数:
205