码迷,mamicode.com
首页 >  
搜索关键字:rdds    ( 34个结果
RDD的理解
1.RDD介绍 A list of partitions > 一个许多分区的集合,分区中包含数据 A function for computing each split > 为每个分区提供一个computing的函数 A list of dependencies on other RDDs > RD ...
分类:其他好文   时间:2017-02-13 20:34:23    阅读次数:307
spark 对hbase 操作
本文将分两部分介绍,第一部分讲解使用 HBase 新版 API 进行 CRUD 基本操作;第二部分讲解如何将 Spark 内的 RDDs 写入 HBase 的表中,反之,HBase 中的表又是如何以 RDDs 形式加载进 Spark 内的。 环境配置 为了避免版本不一致带来不必要的麻烦,API 和 ...
分类:其他好文   时间:2016-09-28 22:03:52    阅读次数:272
spark源码阅读 RDDs
RDDs弹性分布式数据集 spark就是实现了RDDs编程模型的集群计算平台。有很多RDDs的介绍,这里就不仔细说了,这儿主要看源码。 相关类 Dependency 宽依赖和窄依赖两种。Denpendency类中主要保存父RDD,根据partition id获得所依赖的父RDD partitions ...
分类:其他好文   时间:2016-07-11 18:53:25    阅读次数:257
spark program guide 官网翻译
Spark 应用由driver program 组成,driver program运行用户的主函数,在集群内并行执行各种操作主要抽象RDD: spark提供RDD,是贯穿整个集群中所有节点的分区元素的集合,能够被并行操作。RDDS来源: 1.Hadoop文件系统或支持Hadoop的文件系统中操...
分类:其他好文   时间:2015-11-05 15:04:07    阅读次数:348
Spark开发指南
简介总的来说,每一个Spark应用程序,都是由一个驱动程序组成,它运行用户的main函数,并且在一个集群上执行各种各样的并行操作。Spark提 供的主要的抽象(概念)是一个弹性分布式数据集,它是一个元素集合,划分到集群的不同节点上,可以被并行操作。RDDs的创建可以从Hadoop文件系统 (或者任何...
分类:其他好文   时间:2015-08-09 10:48:07    阅读次数:149
Spark入门三部曲之第一步Spark基础知识
Spark运行环境Spark 是Scala写的, 运行在JVM上。所以运行环境是Java6或者以上。 如果想要使用 Python API,需要安装Python 解释器2.6版本或者以上。 目前Spark(1.2.0版本) 与Python 3不兼容。 Spark下载下载地址:http://spark.apache.org/downloads.html,选择Pre-built for Hadoop...
分类:其他好文   时间:2015-08-04 13:28:21    阅读次数:117
Spark SQL and DataFrame Guide(1.4.1)——之DataFrames
Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames...
分类:数据库   时间:2015-07-29 17:22:28    阅读次数:196
Druid和Spark对比
Druid和Spark对比不是Spark专家, 如果描绘有错误, 请通过邮件列表或者其他方式告知我们Spark实现弹性的分布式数据集概念的计算集群系统, 可以看做商业分析平台。 RDDs能复用持久化到内村中的数据, 从而为迭代算法提供更快的计算速度。 这对一些工作流例如机器学习格外有用, 有些操作需...
分类:其他好文   时间:2015-05-22 16:57:46    阅读次数:230
spark优化之临时目录
官方是这样说的:Directory to use for "scratch" space in Spark, including map output files and RDDs that get stored on disk. This should be on a fast, local di...
分类:其他好文   时间:2015-05-18 18:19:14    阅读次数:232
Spark(六) -- RDD详解
What is RDD? A Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象 表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构 在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有...
分类:其他好文   时间:2015-05-17 13:47:42    阅读次数:172
34条   上一页 1 2 3 4 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!