码迷,mamicode.com
首页 >  
搜索关键字:计算框架    ( 492个结果
有了Hadoop MapReduce, 为什么还要Spark?
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能;而Spark利用RDD技术,计算在内存中进行.b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架.c. 再说说Spark API方面- Scala: Scalable Language...
分类:其他好文   时间:2015-05-21 18:50:09    阅读次数:169
Storm Trident 详细介绍
一、概要 1.1 Storm(简介) ? ? ?Storm是一个实时的可靠地分布式流计算框架。 ? ? ?具体就不多说了,举个例子,它的一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor ...
分类:其他好文   时间:2015-05-17 21:59:55    阅读次数:220
spark开篇
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma...
分类:其他好文   时间:2015-05-11 21:57:34    阅读次数:206
开源分布式计算系统框架比较
分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发...
分类:其他好文   时间:2015-05-06 14:51:36    阅读次数:174
Storm 基础知识
分布式的实时计算框架,storm对于实时计算的意义类似于hadoop对于批处理的意义。 Storm的适用场景: 1.流数据处理:storm可以用来处理流式数据,处理之后将结果写到某个存入中去。 2.持续计算:连续发送数据到客户端,使它们能够实时更新并显示结果,如网站指标 3.分布式RPC:由于sto...
分类:其他好文   时间:2015-04-12 10:34:30    阅读次数:161
大数据学习笔记1--hadoop简介和入门
Hadoop简介: 分布式、可扩展、可靠的、分布式计算框架。 组件: common:公共组件 hdfs:分布式文件系统 yarn:运行环境 mapreduce:mr计算模型 生态系统: Ambari:操作界面 avro:通用的序列化机制、与语言无关 cassandra:数据库 chukwa:数据收集系统 hbase:分布式大表数据库 hive:基于sql的分析系统 matout:机器学习算法库 pi...
分类:其他好文   时间:2015-04-05 11:59:31    阅读次数:234
Storm分布式实时流计算框架相关技术总结
Storm分布式实时流计算框架相关技术总结 Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍。以此为基础,后续再深入了解Storm的内部实现细节。1. Zookeeper集群 Zookeeper是一个针对大型分布式系统.....
分类:其他好文   时间:2015-04-02 18:21:15    阅读次数:117
Spark Standalone Mode 单机启动Spark -- 分布式计算系统spark学习(一)
spark是个啥?Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark和Hadoop有什么不同呢?Spark是基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存...
分类:其他好文   时间:2015-03-20 12:49:49    阅读次数:306
Spark调优
因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。...
分类:其他好文   时间:2015-03-19 17:56:12    阅读次数:173
Hadoop 基本架构
Hadoop 由两部分组成,分别是分布式文件系统和分布式计算框架 MapReduce。 其中,分布式文件系统主要用于大规模数据的分布式存储, 而 MapReduce 则构建在分布式文件系统之上,对存储在分布式文件系统中的数据进行分布式计算。本文主要涉及 MapReduce,但考虑到它的一些功能跟底层...
分类:其他好文   时间:2015-03-17 23:06:37    阅读次数:196
492条   上一页 1 ... 41 42 43 44 45 ... 50 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!