什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
1、数据背景:首先,公司,2019年4月15日有335150条订单,各条订单中都有唯一的标识ID(order_id)对应一笔交易。 根据交易流程,在系统上报该交易信息时依次会有已下单、已支付、已发货、配送中、已接收、已退货、已退款等多种事务状态,而且每个事务的发生都会在Hive表中生成一条记录。因此 ...
分类:
数据库 时间:
2020-02-13 19:26:05
阅读次数:
131
1)date_format函数(根据格式整理日期) 作用:把一个字符串日期格式化为指定的格式。 select date_format('2017-01-01','yyyy-MM-dd HH:mm:ss'); --日期字符串必须满足yyyy-MM-dd格式 结果:2017-01-01 00:00:00 ...
分类:
数据库 时间:
2020-01-01 15:16:00
阅读次数:
208
产生背景:sqoop抽取oracle数据到hive表时,只能写入到固定分区(--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值)。于是先把数据抽取到一张增量表,然后从增量表动态写入分区表。 set hive.exec.dyna ...
分类:
数据库 时间:
2019-12-19 23:26:48
阅读次数:
305
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。关于该目录的生成位置策略可参考该文章:ht ...
分类:
其他好文 时间:
2019-11-10 19:39:33
阅读次数:
271
-- 转化占比 tmk约课和总的约课在最近两个月的转化人数 select on_where, count(distinct T.fk_student) as subscribe_num_1, count(distinct if(is_attend=1,fk_student,null)) attend... ...
分类:
数据库 时间:
2019-10-31 21:51:22
阅读次数:
94
转自 https://www.cnblogs.com/aDust/archive/2012/10/19/mysqldump.html 我项目的解决方案就是: 1、将mysqldump.exe复制放到我的项目文件夹下 2、执行备份时,先得到项目部署路径,然后执行 Runtime rt = Runtim ...
分类:
数据库 时间:
2019-10-11 18:41:50
阅读次数:
106
1. Hive是什么 1.1 hive的概念 Hive:由Facebook开源,用于解决海量(结构化日志)的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将Hive SQL转化成MapReduce程序 1.2 Hive ...
分类:
其他好文 时间:
2019-10-03 10:44:59
阅读次数:
112
sql优化: 数据倾斜的处理方式: -- Q: 活动数据 和 对应的维表进行关联,其中某个活动特别的大。 A: 1) 给关联健加入一个随机的 1-10的值 2)将维度表 的关联健, 每个加上 1-10的值,将维度表扩充十倍。 3)然后将2个表进行join,从而来消除数据倾斜。 -- 尽量不使用cou ...
分类:
数据库 时间:
2019-09-29 18:15:32
阅读次数:
107
Hive简介 什么是Hive 1. Hive由Facebook实现并开源 2. 是基于Hadoop的一个数据仓库工具 3. 可以将结构化的数据映射为一张数据库表 4. 提供HQL(Hive SQL)查询功能 5. 底层数据是存储在HDFS上 6. Hive的本质是将SQL语句转换为MapReduce ...
分类:
其他好文 时间:
2019-08-19 00:02:27
阅读次数:
94