码迷,mamicode.com
首页 >  
搜索关键字:hive-sql    ( 115个结果
【推荐系统算法实战】 基于网页的 Notebook:Zeppelin 交互式数据分析Zeppelin简介环境安装快速开始Kotlin 开发者社区
【推荐系统算法实战】 基于网页的 Notebook:Zeppelin 交互式数据分析 如果有一个工具,可以让你在同一个Web页面上写Shell代码,Python代码,Scala代码,你想要么? 如果还可以执行PySpark代码和Spark代码呢?心动了吗? 如果还可以写Hive-SQL,Spark- ...
分类:编程语言   时间:2021-07-02 15:35:46    阅读次数:0
记Hive SQL中TEMPORARY VIEW的一个数据对不上的坑
问题背景: (无关操作已省略) Spark ETL执行以下SQL: CREATE TEMPORARY VIEW A select user_id, ...; CREATE TEMPORARY VIEW B select user_id, ... from A ...; INSERT OVERWRIT ...
分类:数据库   时间:2020-12-29 11:28:30    阅读次数:0
Hive SQL使用过程中的奇怪现象
hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。HiveSQL是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同
分类:数据库   时间:2020-09-17 23:41:17    阅读次数:49
使用Hive SQL窗口函数进行商务数据分析
本文会从一个商务分析案例入手,说明SQL窗口函数的使用方式。通过本文的5个需求分析,可以看出SQL窗口函数的功能十分强大,不仅能够使我们编写的SQL逻辑更加清晰,而且在某种程度上可以简化需求开发。数据准备本文主要分析只涉及一张订单表orders,操作过程在Hive中完成,具体数据如下:--建表CREATETABLEorders(order_idint,customer_idstring,citys
分类:数据库   时间:2020-09-17 16:33:50    阅读次数:45
hive sql 优化
常规的: 1、过早的过滤字段、只选用需要的列、要加分区 2、join 小表放左边 set hive.exec.reducers.max=200; set mapred.reduce.tasks= 200; 增大Reduce个数 set hive.groupby.mapaggr.checkinterv ...
分类:数据库   时间:2020-06-22 15:34:57    阅读次数:75
Hive sql常用函数
1.获取当前日期 如2020-13-22 current_date() 或者current_date 获取当前时间:from_unixtime(unix_timestamp()) -->返回格式:yyyy-MM-dd HH:mm:ss :current_timestamp() -->返回格式:yyy ...
分类:数据库   时间:2020-06-12 16:05:54    阅读次数:58
3、Hive-sql优化,数据倾斜处理
一、Hive-sql优化 #增加reducer任务数量(拉取数量分流) set mapred.reduce.tasks=20; #在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true; #增加同一个sql允许并行任务的最大线程数 s ...
分类:数据库   时间:2020-05-11 01:21:52    阅读次数:80
【赵强老师】在Spark SQL中读取JSON文件
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRedu ...
分类:数据库   时间:2020-04-05 13:33:32    阅读次数:113
Hive的安装部署全过程详细版
首先先简单介绍下hive: Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。 核心架构: Hive官网地址 http:// ...
分类:其他好文   时间:2020-03-26 01:39:24    阅读次数:93
hive sql 优化 - 2.0
hive 优化 1、需要计算的指标真的需要从数据仓库的公共明细自行汇总吗?2、真的需要扫描那么多的分区么?3、尽量不要使用 select * from table这样的方式4、输入文件不要是大量的小文件 group by引起的倾斜优化: R:group by引起的倾斜主要是输入数据行按照group ...
分类:数据库   时间:2020-03-25 19:41:04    阅读次数:90
115条   1 2 3 4 ... 12 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!