RDD、DataFrame与DataSet的相互转换

时间：2020-01-28 23:32:20 阅读：99 评论：0 收藏：0 [点我收藏+]

RDD、DataFrame与DataSet三者有许多的共性，都有各自使用的场景，常常需要在三者之间进行转换

DataFrame/Dataset 转 RDD：

val rdd1=testDF.rdd
val rdd2=testDS.rdd

// 一般用元组把一行的数据写在一起，然后在toDF中指定字段名
import spark.implicits._
val testDF = rdd.map {line=>
(line._1,line._2)
}.toDF("col1","col2")

// 核心就是要定义case class
import spark.implicits._
case class Coltest(col1:String, col2:Int)
val testDS = rdd.map{line=>Coltest(line._1,line._2)}.toDS

// 这个转换简单，只是把 case class 封装成Row
import spark.implicits._
val testDF = testDS.toDF

// 每一列的类型后，使用as方法（as方法后面还是跟的case class，这个是核心），转成Dataset。
import spark.implicits._
case class Coltest … …
val testDS = testDF.as[Coltest]

特别注意：

在使用一些特殊操作时，一定要加上import spark.implicits._ 不然toDF、toDS无法使用

原文地址：https://www.cnblogs.com/Gxiaobai/p/12239086.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行