码迷,mamicode.com
首页 >  
搜索关键字:分布式计算框架    ( 113个结果
《OD学spark》20160925 Spark Core
一、引言 Spark内存计算框架 中国Spark技术峰会 十二场演讲 大数据改变世界,Spark改变大数据 大数据: 以Hadoop 2.x为主的生态系统框架(MapReduce并行计算框架) 存储数据、处理数据 分布式 Spark: 类似于MapReduce的另外一种分布式计算框架 核心: 数据结 ...
分类:其他好文   时间:2016-09-25 15:41:54    阅读次数:101
Hadoop 简介
一个开源的,高可靠,可扩展的分布式计算框架 解决的问题 1 海量数据的存储(HDFS) 2海量数据的分析(Mapreduce) 3 分布式资源调度 (Yarn) 应用场景 日志分析,基于海量数据的在线应用,推荐系统,计算广告,复杂算法,网盘,搜素引擎,,,, 一 HDFS 动态增加,自动备份 二 m ...
分类:其他好文   时间:2016-09-17 23:32:08    阅读次数:194
Hadoop之MapReduce工作原理
Hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框架MapReduce。其中,分布式文件系统HDFS主要用于大规模数据的分布式存储,而MapReduce则构建在分布式文件系统上,对于存储在分布式文件系统的数据进行分布式计算。1MapReduce设计目标HadoopMapReduce诞生于搜索领域..
分类:其他好文   时间:2016-08-26 23:05:08    阅读次数:224
hadoop-MapReduce分布式计算框架
计算框架: MapReduce:主要用于离线计算 Storm:流式计算框架,更适合做实时计算 stack:内存计算框架,快速计算 MapReduce设计理念: --何为分布式计算 --移动计算,而不是移动数据 4个步骤: 1.Splitting 2.Mapping:Map步骤有可能有多个Map ta ...
分类:其他好文   时间:2016-08-24 01:10:11    阅读次数:138
RDD机制实现模型Spark初识
Spark简介 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。 在Spark中,通过RDD(Resilient Distributed Dataset,弹性分布式数据集)来进行计算,这些分布式集合,并行的 ...
分类:其他好文   时间:2016-08-08 23:58:59    阅读次数:474
hadoop生态圈点滴
HDFS:分布式文件系统 MapReduce:分布式计算框架 Sqoop:数据库ETL工具 Flume:日志收集工具 Mahout:数据挖掘库 Hive:数据仓库 Pig:数据流处理 HBase:实时分布式数据库 Zookeeper:分布式协作服务 ...
分类:其他好文   时间:2016-07-01 20:14:23    阅读次数:166
大数据行业人士必知10大数据思维原理
大数据思维原理是什么?简单概括为10项原理,当样本数量足够大时,你会发现其实每个人都是一模一样的。   一、数据核心原理   从“流程”核心转变为“数据”核心   大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的...
分类:其他好文   时间:2016-06-12 02:51:41    阅读次数:158
MemSQL 取代 HDFS 与 Spark 结合,性能大幅提升
pache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势,但是它仍然需要将数据持久化存储,HDFS... ...
分类:数据库   时间:2016-06-08 06:56:03    阅读次数:362
mapreduce的基本思想
1、什么是mapreduce mapreduce是hadoop自带的分布式计算框架。 2、mapreduce的基本思想 2.1、能够解决什么问题假设一个场景:一个电商系统,统计某个手机号的用户的上行和下行流量。 如果通过一个节点的计算机,对各个datanode上的文件进行扫描,将结果统计到一个has ...
分类:其他好文   时间:2016-05-11 16:30:49    阅读次数:271
第43课:Spark 1.6 RPC内幕解密:运行机制、源码详解、Netty与Akka等
Spark是分布式计算框架,多台机器之间必然存在着通信。Spark在早期版本采用Akka实现。现在在Akka的上层抽象出了一个RpcEnv。RpcEnv负责管理机器之间的通信。RpcEnv包含了如下三大核心:RpcEndpoint消息循环体,负责接收并处理消息。Spark中的Master、Worker都是RpcEndpoint。Rp..
分类:Web程序   时间:2016-05-06 02:28:50    阅读次数:4751
113条   上一页 1 ... 6 7 8 9 10 ... 12 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!