package RddApi
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by Administrator on 2016/4/24.
*/
object rdd4_coalesce {
/**
* coalesce方法是将已经存储的数据重新分片后再进行存储
* 第一个参数是将数据重新分成的片数,布尔型数指的是将数据分成更小的片时使用。
*/
// def main(args: Array[String]) {
// val conf=new SparkConf() //创建环境变量
// .setMaster("local") //设置本地化处理
// .setAppName("rdd4_coalesce") //设置名称
// val sc=new SparkContext(conf) //创建环境变量实例
// val arr=sc.parallelize(Array(1,2,3,4,5,6))
// val arr2=arr.coalesce(2,true) //将数据重新分区
// val result=arr.aggregate(0)(math.max(_,_),_+_) //计算数据值
// println(result)
// val result2=arr2.aggregate(0)(math.max(_,_),_+_) //计算重新分区数据值
// println(result2)
// }
/**
* RDD中还有一个repartition方法与这个coalesce方法类似,均是将数据重新分区组合
*/
def main(args: Array[String]) {
val conf=new SparkConf() //创建环境变量
.setMaster("local") //设置本地化处理
.setAppName("rdd4_coalesce") //设置名称
val sc=new SparkContext(conf) //创建环境变量实例
val arr=sc.parallelize(Array(1,2,3,4,5,6))
val arr2=arr.repartition(3) //将数据分区
println(arr2.partitions.length) //打印分区结果
}
}
package RddApi
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by Administrator on 2016/4/24.
*/
object rdd4_coalesce {
/**
* coalesce方法是将已经存储的数据重新分片后再进行存储
* 第一个参数是将数据重新分成的片数,布尔型数指的是将数据分成更小的片时使用。
*/
// def main(args: Array[String]) {
// val conf=new SparkConf() //创建环境变量
// .setMaster("local") //设置本地化处理
// .setAppName("rdd4_coalesce") //设置名称
// val sc=new SparkContext(conf) //创建环境变量实例
// val arr=sc.parallelize(Array(1,2,3,4,5,6))
// val arr2=arr.coalesce(2,true) //将数据重新分区
// val result=arr.aggregate(0)(math.max(_,_),_+_) //计算数据值
// println(result)
// val result2=arr2.aggregate(0)(math.max(_,_),_+_) //计算重新分区数据值
// println(result2)
// }
/**
* RDD中还有一个repartition方法与这个coalesce方法类似,均是将数据重新分区组合
*/
def main(args: Array[String]) {
val conf=new SparkConf() //创建环境变量
.setMaster("local") //设置本地化处理
.setAppName("rdd4_coalesce") //设置名称
val sc=new SparkContext(conf) //创建环境变量实例
val arr=sc.parallelize(Array(1,2,3,4,5,6))
val arr2=arr.repartition(3) //将数据分区
println(arr2.partitions.length) //打印分区结果
}
}