load、save方法、spark sql的几种数据源

时间：2016-04-04 18:09:54 阅读：287 评论：0 收藏：0 [点我收藏+]

标签：

load、save方法的用法

        DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet");

        usersDF.select("name", "favorite_color").write()
                .save("hdfs://spark1:9000/namesAndFavColors.parquet");

//load、save方法~指定文件格式
        DataFrame peopleDF = sqlContext.read().format("json")
                .load("hdfs://spark1:9000/people.json");
        peopleDF.select("name").write().format("parquet")

.save("hdfs://spark1:9000/peopleName_java");

parquet数据源：

-》加载parquet数据

DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:9000/spark-study/users.parquet");

-》parquet分区自动推断

将只有两个字段的user.parquet存到 /users/gender=male/country=us/ 目录下（如下），

技术分享

使用如下代码加载users.parquet的数据后，得到的usersDF中将会有4个字段

DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:9000/spark-study/users/gender=male/country=us/users.parquet");

其中gender字段的值为male，country的值为us

-》合并元数据

parquet合并元数据： http://www.cnblogs.com/key1309/p/5332089.html

json数据源：

DataFrame studentScoresDF = sqlContext.read().json("hdfs://spark1:9000/spark-study/students.json");

//json数据源的格式要求：

技术分享

Hive数据源

// 待续。。。

JDBC数据源：

http://www.cnblogs.com/key1309/p/5350179.html

load、save方法、spark sql的几种数据源

标签：

原文地址：http://www.cnblogs.com/key1309/p/5352365.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行