码迷,mamicode.com
首页 > Web开发 > 详细

Spark之json数据处理

时间:2018-01-09 18:46:47      阅读:294      评论:0      收藏:0      [点我收藏+]

标签:命令   ati   root   显示   bin   数据显示   style   初始化   员工   

-- 默认情况下,SparkContext对象在spark-shell启动时用namesc初始化。使用以下命令创建SQLContext。
val sqlcontext = new org.apache.spark.sql.SQLContext(sc)
-- employee.json-将此文件放在currentscala>指针所在的目录中。
{
   {"id" : "1201", "name" : "satish", "age" : "25"}
   {"id" : "1202", "name" : "krishna", "age" : "28"}
   {"id" : "1203", "name" : "amith", "age" : "39"}
   {"id" : "1204", "name" : "javed", "age" : "23"}
   {"id" : "1205", "name" : "prudvi", "age" : "23"}
}
-- 读取JSON文档namedemployee.json。 数据显示为带有字段id,name和age的表。
val dfs = sqlContext.read.json("/root/wangbin/employee.json")
-- 显示数据
dfs.show()
-- 查看数据结构
dfs.printSchema()
-- 查看某一列
dfs.select("name").show()
-- 查找年龄大于23(age> 23)的雇员。
dfs.filter(dfs("age") > 23).show()
-- 计算同一年龄的员工人数。
dfs.groupBy("age").count().show()

 

Spark之json数据处理

标签:命令   ati   root   显示   bin   数据显示   style   初始化   员工   

原文地址:https://www.cnblogs.com/wangbin2188/p/8252658.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!