hive 调优(一)coding调优 本人认为hive是很好的工具,目前支持mr,tez,spark执行引擎,有些大公司原来封装的sparksql,开发py脚本,但是目前hive支持spark引擎(不是很稳定,建议Tez先),所以离线还是用hive比较好。 先将工作中总结,以及学习其他人的hive优 ...
分类:
其他好文 时间:
2019-06-19 12:15:58
阅读次数:
99
1、执行计划(过往记忆https://www.iteblog.com/archives/2562.html) 2、逻辑计划优化方法: 谓词下推,列裁剪,常量替换,常量累加 3、优化方法 数据源方面: 1、hive 使用parquet格式,不要用textfile。列式存储便于查询引擎做块遍历、谓词下推 ...
分类:
数据库 时间:
2019-06-18 23:01:37
阅读次数:
303
记录spark使用中常见问题 SparkSQL 日期解析时用到SimpleDateFormat, SimpleDateFormat是线程不安全的。可以使用 FastDateFormat 如: ...
分类:
其他好文 时间:
2019-06-17 01:08:24
阅读次数:
106
用户自定义函数(UDF)是大多数SQL环境的一个关键特性,其主要用于扩展系统的内置功能。UDF允许开发人员通过抽象其低级语言实现在更高级语言(如SQL)中应用的新函数。ApacheSpark也不例外,其为UDF与SparkSQL工作流集成提供了各种选项。在本篇博文中,我们将回顾Python、Java和Scala上的ApacheSparkUDF和UDAF(用户自定义的聚合函数)实现的简单示例。我们还
分类:
Web程序 时间:
2019-06-14 12:32:46
阅读次数:
131
讨论QQ:1586558083 目录 一、概述 二、Spark-SQL脚本 正文 回到顶部 一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说 ...
分类:
数据库 时间:
2019-06-11 13:32:05
阅读次数:
218
讨论QQ:1586558083 目录 一、SparkSQL的进化之路 二、认识SparkSQL 2.1 什么是SparkSQL? 2.2 SparkSQL的作用 2.3 运行原理 2.4 特点 2.5 SparkSession 2.7 DataFrames 三、RDD转换成为DataFrame 3. ...
分类:
数据库 时间:
2019-06-11 12:41:29
阅读次数:
145
讨论QQ:1586558083 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcatio ...
分类:
数据库 时间:
2019-06-11 12:40:45
阅读次数:
126
上个版本号的start.scala用的是HiveContext。这个是SQLContext的,不需编译。 # cat testperson.txt #字段用table键分隔 zs 10 30.0 li 12 32.0 # spark-shell -i:start.scala scala> help ...
分类:
数据库 时间:
2019-05-25 09:32:21
阅读次数:
98
解决SparkSQL部分报错
一、Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException:
The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the
CLASSPATH. Please check your CLASSPATH specification,
and the name of the driver.
二、Caused by: java.sql.SQLException: No suitable driver found for
jdbc:mysql://192.168.1.201:3306/hiveDB?createDatabaseIfNotExist=true
分类:
数据库 时间:
2019-05-21 22:40:25
阅读次数:
1664