Spark Programming--Actions II

时间：2016-01-02 14:19:06 阅读：228 评论：0 收藏：0 [点我收藏+]

标签：

saveAsTextFile

saveAsTextFile(path, compressionCodecClass=None)

aveAsTextFile用于将RDD以文本文件的格式存储到文件系统中，将每一个元素以string格式存储（结合python的loads和dumps可以很好应用）

Parameters:

path – path to text file
compressionCodecClass – (None by default) string i.e. “org.apache.hadoop.io.compress.GzipCodec“ 指定压缩的类名

例子：

技术分享

sequenceFile(path, keyClass=None, valueClass=None, keyConverter=None, valueConverter=None, minSplits=None, batchSize=0)

Parameters:

path – path to sequncefile
keyClass – fully qualified classname of key Writable class (e.g. “org.apache.hadoop.io.Text”)
valueClass – fully qualified classname of value Writable class (e.g. “org.apache.hadoop.io.LongWritable”)
keyConverter –
valueConverter –
minSplits – minimum splits in dataset (default min(2, sc.defaultParallelism))
batchSize – The number of Python objects represented as a single Java object. (default 0, choose batchSize automatically)