码迷,mamicode.com
首页 > 数据库 > 详细

Spark SQL中 RDD 转换到 DataFrame (方法二)

时间:2017-10-10 21:55:24      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:main   count()   tty   使用   ssi   spark sql   object   测试数据   UI   

1.people.txt:
soyo8, 35
小周, 30
小华, 19
soyo,88

/*
* * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SparkSession} object RDD_To_DataFrame2 { def main(args: Array[String]): Unit = { val spark=SparkSession.builder().getOrCreate() val peopleRDD=spark.sparkContext.textFile("file:///home/soyo/桌面/spark编程测试数据/people.txt") val schema_S="name age" val fields=schema_S.split(" ").map(x=>StructField(x,StringType,nullable = true)) //生成模式 val schema=StructType(fields) val rowRDD=peopleRDD.map(_.split(",")).map(x=>Row(x(0),x(1).trim)) val peopleDF=spark.createDataFrame(rowRDD,schema) peopleDF.createOrReplaceTempView("people2") val results=spark.sql("select * from people2") results.show() results.groupBy("age").count().show() } }

结果:
+-----+---+
| name|age|
+-----+---+
|soyo8| 35|
|   小周| 30|
|   小华| 19|
| soyo| 88|
+-----+---+

+---+-----+
|age|count|
+---+-----+
| 30|    1|
| 35|    1|
| 19|    1|
| 88|    1|
+---+-----+



 

Spark SQL中 RDD 转换到 DataFrame (方法二)

标签:main   count()   tty   使用   ssi   spark sql   object   测试数据   UI   

原文地址:http://www.cnblogs.com/soyo/p/7647668.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!