码迷,mamicode.com
首页 > 其他好文 > 详细

<Spark快速大数据分析>读书笔记(三)

时间:2018-02-05 21:58:51      阅读:231      评论:0      收藏:0      [点我收藏+]

标签:text   put   键值   读书   过程   class   节点   逗号   目录   

PART 5 数据读取与保存

  1.文件格式与文件系统:

  Spark支持的一些常见文件格式:

  技术分享图片

  1.1文本文件:

    读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名

    保存:saveAsTextFile()传入一个文件保存的路径,Spark会将该路径视为目录,在该目录下保存多个文件,这样Spark就可以从各个节点并行保存了。这个过程不能控制哪个节点输出到哪个文件,但是可以对输出格式进行控制。

  1.2JSON:

    读取:

1 #在Python中读取非结构化的JSON
2 import json
3 data = input.map(lambda x: json.loads(x))

    保存:

1 #Python将数据保存为JSON格式
2 import json
3 data.map(lambda x: json.dumps(x)).saveAsTextFile(outputFile)

  1.3逗号分隔值(CSV)与制表符分隔值:

    读取:

 

  2.Spark SQL中的结构化数据源:

  

  3.数据库与键值存储:

<Spark快速大数据分析>读书笔记(三)

标签:text   put   键值   读书   过程   class   节点   逗号   目录   

原文地址:https://www.cnblogs.com/conor/p/8416174.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!