码迷,mamicode.com
首页 > 其他好文 > 详细

【knowledgebase】如何知道partition数

时间:2015-02-09 15:55:33      阅读:117      评论:0      收藏:0      [点我收藏+]

标签:

对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:

1、通过SparkUI查看Task执行的partition数

当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目

val someRDD = sc.parallelize(1 to 100, 4)
someRDD.map(x => x).collect

技术分享

 

2、通过SparkUI查看cache过的partition数

当persist或者cache一个RDD后,知道有多少个partition被缓存了是很有用的。

someRDD.setName("toy").cache
someRDD.map(x => x).collect

技术分享

 

3、通过代码角度透视RDD的parition数

在Scala API中,RDD持有一个partition数组的引用,通过该引用我们可以得知partition数

scala> val someRDD = sc.parallelize(1 to 100, 30)
someRDD: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[30] at parallelize at <console>:12

scala> someRDD.partitions.size
res15: Int = 30

 

【knowledgebase】如何知道partition数

标签:

原文地址:http://www.cnblogs.com/luogankun/p/4277962.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!