PART 3 Pair RDD
Spark为包含键值对类型的RDD提供了专有操作,这类RDD叫做Pair RDD(意为“对RDD”)
Spark中Pair RDD的创建主要有两种方式,一种方式从存储了键值对数据的文件中创建(主要内容见PART 4),另一种方式可以从其他普通RDD调用map()操作来实现:
1 #line的元素是一行单词构成的句子,map操作后每个元素为该句子的首个单词和句子本身构成一个二元元组 2 pairs = line.map(lambda x: (x.split(" ")[0], x))