码迷,mamicode.com
首页 > 其他好文 > 详细

寒假7

时间:2020-02-07 22:13:50      阅读:85      评论:0      收藏:0      [点我收藏+]

标签:Plan   context   server   使用   for   今天   store   ext   uda   

今天学习SparkSQL方面的知识

该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目:

  • Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架
  • Execution (sql/core) - 代表planner / execution engine 用来转化Catalyst的逻辑查询计划为park RDDs. 该部件也允许用户将 RDDs and Parquet files转化为表,来进行查询分析.
  • Hive Support (sql/hive) - 包含了一个SqlContext扩展HiveContext,允许使用 HiveQL 的子集and 允许使用 * Hive SerDes去访问hive metastore的数据. 也可以使用Hive 的UDFs, UDAFs, and UDTFs来进行查询分析.
  • HiveServer and CLI support (sql/hive-thriftserver) - Includes support for the SQL CLI (bin/spark-sql) and a HiveServer2 (for JDBC/ODBC) compatible server.
  • dataFrame进一步抽象了数据集

练习了加载数据使用DataFrame

还有将RDD转化为DataFrame

寒假7

标签:Plan   context   server   使用   for   今天   store   ext   uda   

原文地址:https://www.cnblogs.com/yang-qiu/p/12274840.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!