SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD ...
分类:
其他好文 时间:
2020-01-18 12:44:55
阅读次数:
66
groupBy(f, numPartitions=None, partitionFunc=<function portable_hash>):根据 条件 分组,这个条件是一个函数;输出 (key,迭代器) groupByKey(numPartitions=None, partitionFunc=<f ...
分类:
其他好文 时间:
2019-10-11 18:38:54
阅读次数:
157
spark 简介 建议先阅读我的博客 大数据基础架构 spark 一个通用的计算引擎,专门为大规模数据处理而设计,与 mapreduce 类似,不同的是,mapreduce 把中间结果 写入 hdfs,而 spark 直接写入 内存,这使得它能够实现实时计算。 spark 由 scala 语言开发, ...
分类:
其他好文 时间:
2019-10-02 12:51:02
阅读次数:
1950
进入Hue管理界面,打开Oozie Editor: 将打包好的Spark程序上传到HDFS上,拖拽Spark任务,编辑任务属性,选择打包好的Spark程序,设置主函数所在类,设置选项参数: 保存为任务: 执行: ...
分类:
其他好文 时间:
2019-09-19 21:45:07
阅读次数:
81
参考: https://blog.csdn.net/dingyuanpu/article/details/52623655 https://www.cnblogs.com/feiyudemeng/p/9254046.html http://dequn.github.io/2016/11/08/pho ...
分类:
系统相关 时间:
2019-07-04 00:22:10
阅读次数:
174
Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。这是一个简单的Spark教程,介绍了Spark核心编程的基础知识。 工业公司广泛的使用 Hadoop 来分析 ...
分类:
编程语言 时间:
2019-05-08 09:17:58
阅读次数:
150
1.概述 Spark起源于加州大学伯克利分校RAD实验室,起初旨在解决MapReduce在迭代计算和交互计算中的效率低下问题.目前Spark已经发展成集离线计算,交互式计算,流计算,图计算,机器学习等模块于一体的通用大数据解决方案. 2.Spark组件 Spark Core Spark Core 实 ...
分类:
其他好文 时间:
2018-11-21 10:22:35
阅读次数:
271
Apache Spark是一个集群计算设计的快速计算。它是建立在Hadoop MapReduce之上,它扩展了 MapReduce 模式,有效地使用更多类型的计算,其中包括交互式查询和流处理。这是一个简单的Spark教程,介绍了Spark核心编程的基础知识。 工业公司广泛的使用 Hadoop 来分析 ...
分类:
其他好文 时间:
2017-10-24 11:15:15
阅读次数:
206
RDD的创建 spark 所有的操作都围绕着弹性分布式数据集(RDD)进行,这是一个有容错机制的并可以被并行操作的元素集合,具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征 RDD的创建基础RDD 1.并行集合(Parallelized Collections):接收一个已经存在的S ...
分类:
其他好文 时间:
2017-07-08 22:22:16
阅读次数:
648