1. val lines=sc.textFile("hdfs://") ==加载进来成为RDD Resilient distributed dataset 弹性数据集 val errors=lines.filter(_.startsWith("ERROR")) ##transformation va ...
分类:
系统相关 时间:
2016-09-14 16:29:27
阅读次数:
304
1.什么是ETL? ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础 ...
分类:
其他好文 时间:
2016-09-11 01:35:49
阅读次数:
452
cache和persist 将RDD数据进行存储,persist(newLevel: StorageLevel)设置了存储级别,cache()和persist()是相同的,存储级别为MEMORY_ONLY。因为RDD的transformation是lazy的,只有action算子才会触发transf ...
分类:
其他好文 时间:
2016-09-04 11:34:36
阅读次数:
137
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) 但是为什么没有执行comb呢? sortByKey([ascending], [numTasks]) sortBy(func,[ascending], [numTasks]) join(othe ...
分类:
其他好文 时间:
2016-09-03 13:34:11
阅读次数:
248
处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型。 1)输入分区与输出分区一对一型。 2)输入分区与输出分区多对一型。 3)输入分区与输出分区多对多型。 4)输出分区为输入分区子集型。 5)还有一种特殊的输入与输出分区一对一的 ...
分类:
其他好文 时间:
2016-09-02 19:00:56
阅读次数:
215
map(func) 将原RDD中的每一个元素经过func函数映射为一个新的元素形成一个新的RDD。 示例: 其中sc.parallelize第二个参数标识RDD的分区数量 filter(func) def filter(f: T => Boolean): RDD[T] 原RDD中通过func函数结果 ...
分类:
其他好文 时间:
2016-09-01 21:24:24
阅读次数:
242
写在前面
OpenGL中的坐标处理过程包括模型变换、视变换、投影变换、视口变换等内容,这个主题的内容有些多,因此分节学习,主题将分为5节内容来学习。上一节模型变换,本节学习模型变换的下一阶段——视...
分类:
其他好文 时间:
2016-08-28 18:18:40
阅读次数:
356
LOOKUP TRANSFORMATION的使用点评: LOOKUP基本用法不熟的话请参考下附属信息。 用法感受: 1 LOOKUP的作用跟我们以前在EXCEL的函数功能类似,就是隔表取值。优点就是用ETL工具可以设置CACHE,大量的 数据也可以实现这个功能。数据量大的话要设置CACHE ENAB ...
分类:
其他好文 时间:
2016-08-24 17:25:25
阅读次数:
175
一、什么是T4模板 T4是对“Text Template Transformation Toolkit”(4个T)的简称。是一个基于文本文件转换的工具包。T4的核心是一个基于“文本模板”的转换引擎(以下简称T4引擎),我们可以通过它生成一切类型的文本型文件,比如我们常用的代码文件类型包括:C#、VB ...
分类:
其他好文 时间:
2016-08-23 01:35:58
阅读次数:
127
http://blog.it985.com/14794.html,感谢该作者 Picasso的GITHUB地址:https://github.com/square/picasso。 怎么实现各种各样的图片样式呢? 其原理是在Picasso里提供了Transformation这个接口,实现该接口,编写 ...
分类:
其他好文 时间:
2016-08-16 20:02:23
阅读次数:
528