标签:用户 first http gui 基础 div 读取 不可 ase
RDD(弹性分布式数据集)作为spark的核心概念,RDD其实就是一个不可变的分布式的元素集合
什么是弹性: 在任何实收都能进行重新计算,当保存RDD数据的一台机器挂了,spark还可以使用这种特性来重新计算出丢掉的分区,对用户也完全透明。
每个RDD都被分为多个分区,这些分区运行在集群中的不同节点
创建RDD的方式有多种,一是主要读取一个外部的数据集,二是在驱动器程序中的对象集合。
创建出RDD之后,支持两种类型的操作: transformation和action操作。转化操作由一个RDD生产一个新的RDD,但只会惰性计算这些RDD,action操作才是真正计算最终结果的。
spark的RDD会在每次对他们进行action操作时重新计算,如果想在多个action操作中重用同一个RDD,可以使用cache()或是RDD.persist()来将这个RDD缓存起来。我们也可以将数据缓存到不同的地方,比如,磁盘或是内存。如果所有操作都结束,则可以调用stop()操作结束。
eg 举例如下:
1 >>> val rdd = sc.parallelize(Seq(("hadoop",3), ("spark",2), ("hive",1), ("hbase",3), ("java",2))) 2 >>> val resRdd= rdd.filter(_._2 == 3) 3 >>> resRdd.persist() 4 >>> resRdd.count() 5 >>> resRdd.first()
大概的spark程序工作方式:
http://spark.apachecn.org/docs/cn/2.2.0/sql-programming-guide.html
spark中文官网(学习spark最好的方式就是读官方文档)
标签:用户 first http gui 基础 div 读取 不可 ase
原文地址:https://www.cnblogs.com/yixl/p/10236587.html