SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hb ...
分类:
数据库 时间:
2019-07-29 00:15:25
阅读次数:
107
引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景: Broadcast Hash Join :适合一张较 ...
分类:
数据库 时间:
2019-07-25 23:06:28
阅读次数:
109
3.1 新的起始点SparkSession 在老的版本中,SparkSQL提供两种SQL查询起始点,一个叫SQLContext,用于Spark自己提供的SQL查询,一个叫HiveContext,用于连接Hive的查询,SparkSession是Spark最新的SQL查询起始点,实质上是SQLCote ...
分类:
数据库 时间:
2019-07-22 10:16:22
阅读次数:
143
不可否认的是 SQL 是一个伟大的发明,它让增删改查的操作更加地便捷化,而且 SQL 的学习成本相对其他编程语言来说较低,被逼到会写 SQL 的运营和产品我都见过不少。。。 大数据行业跟 SQL 更是有不解之缘,可谓“万物皆可 SQL 化”,从Hive/SparkSQL等最原始的最普及的 SQL 查 ...
分类:
数据库 时间:
2019-07-17 09:25:26
阅读次数:
1735
# hive # show databases; hive> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: ...
分类:
数据库 时间:
2019-07-08 19:12:26
阅读次数:
136
1.spark SQL简介 官网:http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程对象,叫DataFrame,并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive,它是将H ...
分类:
数据库 时间:
2019-06-26 13:21:25
阅读次数:
133
hive 调优(一)coding调优 本人认为hive是很好的工具,目前支持mr,tez,spark执行引擎,有些大公司原来封装的sparksql,开发py脚本,但是目前hive支持spark引擎(不是很稳定,建议Tez先),所以离线还是用hive比较好。 先将工作中总结,以及学习其他人的hive优 ...
分类:
其他好文 时间:
2019-06-19 12:15:58
阅读次数:
99
1、执行计划(过往记忆https://www.iteblog.com/archives/2562.html) 2、逻辑计划优化方法: 谓词下推,列裁剪,常量替换,常量累加 3、优化方法 数据源方面: 1、hive 使用parquet格式,不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...
分类:
数据库 时间:
2019-06-18 23:01:37
阅读次数:
303
记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat, SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如: ...
分类:
其他好文 时间:
2019-06-17 01:08:24
阅读次数:
106