Spark核心编程---创建RDD

时间：2017-06-12 16:20:54 阅读：126 评论：0 收藏：0 [点我收藏+]

创建RDD：

1：使用程序中的集合创建RDD，主要用于进行测试，可以在实际部署到集群运行之前，自己使用集合构造测试数据，来测试后面的spark应用流程。

2：使用本地文件创建RDD，主要用于临时性地处理一些储存了大量数据的文件

3：使用HDFS文件创建RDD，应该是最常用的生产环境处理方式，主要可以针对HDFS上储存的大数据，进行离线处理操作。

//创建SparkConf
 SparkConf conf = new SparkConf()
                    .setAppName=("//跟类名一样")
                    .setMaster("local");

//创建JavaSparkContext
JavaSparkContext sc = new JavaSparkContext(conf);

//要通过并行化集合的方式创建RDD，那么就调用Parallelize()方法
List<Integer> numbers = Array.asList(1,2,3,4,5,6,7,8,9,10);
    
JavaRDD<Integer> numberRDD =  sc .parallelize(numbers)  ；
//也可以在这个方法参数位置在添加一个参数，表明创建多少个Partition
sc.parallelize(numbers,5);

//执行reduce算子操作
int sum = numberRDD.reduce(new function2<Integer,Integer,Integer>(){
           private static final long serialVersionUID =1L;
            
            @override
        public Integer call(Integer num1, Integer num2) throw Exception{
                return num1+num2
    }
});
            //输出累加的和
          System.out.println("和："+sum)

        //关闭JavaSparkContext
        sc.close();

额。。。至于其他的2种创建RDD 博打算以后再更

Spark核心编程---创建RDD

标签：pre 大量 asp 方法 oca 参数 hdfs err row

原文地址：http://www.cnblogs.com/yeszero/p/6993317.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行