Hive 实现这个用到了窗口函数,以及子查询,写出来也不容易,如下 SELECT * FROM ( SELECT g, ROW_NUMBER() OVER(PARTITION BY g ORDER BY x) group_id RN FROM A ) WHERE group_id <= 3 ORDE ...
分类:
其他好文 时间:
2020-05-19 23:03:04
阅读次数:
93
前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进行学习,静态分区和动态分区的建表语句 ...
分类:
其他好文 时间:
2020-05-19 22:46:55
阅读次数:
50
1. UDF 2.UDAF 3.UDTF hive是一个计算引擎. mapreduce 慢,吞吐量达. hive有点像一个hadoop的客户端,他不是分布式的. ...
分类:
其他好文 时间:
2020-05-19 10:43:18
阅读次数:
40
DSW(Data Science Workshop)是阿里巴巴PAI团队根据多年的AI算法和产品研发经验积累,围绕提高AI算法研发效率,降低研发成本而推出的一款适用于各类AI开发者的云端机器学习集成开发环境。
分类:
其他好文 时间:
2020-05-18 19:08:40
阅读次数:
146
Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred ...
分类:
其他好文 时间:
2020-05-18 16:01:16
阅读次数:
183
朱雀的部分题目 : https://github.com/peri0d/wangding_zhuque 九宫格 附件给了一堆图片,扫描之后得到的结果都是zero或者one,写个脚本获取识别之后的二进制串,然后每8位可以读取为一个ascii字符 这个脚本运行的有点慢,快的脚本等大师傅们都发了再发 =. ...
分类:
其他好文 时间:
2020-05-18 15:54:14
阅读次数:
327
http://dwz.date/UDf 概述 Linux磁盘管理好坏直接关系到整个系统的性能问题。 Linux磁盘管理常用命令为 df、du。 df :列出文件系统的整体磁盘使用量 du:检查磁盘空间使用量 df df命令参数功能:检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬盘被占用了多少 ...
分类:
系统相关 时间:
2020-05-17 17:49:30
阅读次数:
82
HIVE分区,桶,倾斜概念 ref:https://edu.hellobi.com/course/93/play/lesson/2037 静态分区: 按日期来分区 动态分区: 商品二级类目分区(图书、数码等),是不确定的 set hive.exec.dynamic.partition 查看设置tru ...
分类:
其他好文 时间:
2020-05-17 17:42:14
阅读次数:
76
hive安装包conf/hive-site.xml 增加如下配置: <property> <name>hive.cli.print.header</name> <value>true</value> <description>Whether to print the names of the col ...
分类:
其他好文 时间:
2020-05-17 16:17:36
阅读次数:
97
http://dwz.date/UDf 走近Linux系统 开机登录 开机会启动许多程序。它们在Windows叫做"服务"(service),在Linux就叫做"守护进程"(daemon)。 开机成功后,它会显示一个文本登录界面,这个界面就是我们经常看到的登录界面,在这个登录界面中会提示用户输入用户 ...
分类:
系统相关 时间:
2020-05-17 16:00:11
阅读次数:
76