一、概述 组件 运行机制 转 SparkSQL – 从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器(原创翻译) 更高效 查询优化 优化:把filte ...
分类:
数据库 时间:
2019-09-19 19:35:50
阅读次数:
130
准备数据: 一、定义自定义无类型聚合函数 想要自定义无类型聚合函数,那必须得继承org.spark.sql.expressions.UserDefinedAggregateFunction,然后重写父类得抽象变量和成员方法。 二、使用自定义无类型聚合函数 输出结果: ...
分类:
数据库 时间:
2019-09-05 15:16:11
阅读次数:
100
不可否认的是 SQL 是一个伟大的发明,它让增删改查的操作更加地便捷化,而且 SQL 的学习成本相对其他编程语言来说较低,被逼到会写 SQL 的运营和产品我都见过不少。。。 大数据行业跟 SQL 更是有不解之缘,可谓“万物皆可 SQL 化”,从Hive/SparkSQL等最原始的最普及的 SQL 查 ...
分类:
数据库 时间:
2019-08-28 11:13:47
阅读次数:
113
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hb ...
分类:
数据库 时间:
2019-07-29 00:15:25
阅读次数:
107
引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景: Broadcast Hash Join :适合一张较 ...
分类:
数据库 时间:
2019-07-25 23:06:28
阅读次数:
109
3.1 新的起始点SparkSession 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询起始点,实质上是SQLCote ...
分类:
数据库 时间:
2019-07-22 10:16:22
阅读次数:
143
不可否认的是 SQL 是一个伟大的发明,它让增删改查的操作更加地便捷化,而且 SQL 的学习成本相对其他编程语言来说较低,被逼到会写 SQL 的运营和产品我都见过不少。。。 大数据行业跟 SQL 更是有不解之缘,可谓“万物皆可 SQL 化”,从Hive/SparkSQL等最原始的最普及的 SQL 查 ...
分类:
数据库 时间:
2019-07-17 09:25:26
阅读次数:
1735
# hive # show databases; hive> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: ...
分类:
数据库 时间:
2019-07-08 19:12:26
阅读次数:
136
1.spark SQL简介 官网:http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程对象,叫DataFrame,并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive,它是将H ...
分类:
数据库 时间:
2019-06-26 13:21:25
阅读次数:
133