1 需求描述 统计硅谷影音视频网站的常规指标,各种 TopN 指标: -- 统计视频观看数 Top10 -- 统计视频类别热度 Top10 -- 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数 -- 统计视频观看数 Top50 所关联视频的所属类别排序 -- 统计 ...
分类:
其他好文 时间:
2021-06-13 10:04:44
阅读次数:
0
4.1 统计视频观看数 Top10 思路:使用 order by 按照 views 字段做一个全局排序即可,同时我们设置只显示前 10 条。 最终代码: SELECT videoId, views FROM gulivideo_orc ORDER BY views DESC LIMIT 10; 4. ...
分类:
其他好文 时间:
2021-06-13 10:04:23
阅读次数:
0
4 Join 语句 4.1 等值 Join Hive 支持通常的 SQL JOIN 语句,但是只支持等值连接,不支持非等值连接。 案例实操 (1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称; hive (default)> select e.empno, e.ename, ...
分类:
编程语言 时间:
2021-06-13 10:00:11
阅读次数:
0
6 分桶及抽样查询 6.1 分桶表数据存储 分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分。 分桶是将数据集分解成更容易管理的若干部分的另一个技术。分区针对的是数据的存储路径;分桶针 ...
分类:
其他好文 时间:
2021-06-13 09:57:59
阅读次数:
0
数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根 据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最 终的 ...
分类:
其他好文 时间:
2021-06-10 18:28:12
阅读次数:
0
#COMMAND="hive -i settings/load-${SCHEMA_TYPE}.sql -f ddl-tpch/bin_${SCHEMA_TYPE}/${t}.sql \ # -d DB=${DATABASE} \ # -d SOURCE=tpch_text_${SCALE} -d B ...
分类:
其他好文 时间:
2021-06-10 18:25:11
阅读次数:
0
转自:https://blog.csdn.net/pmdream/article/details/113601956 一. 各种名词解释 1.1 ODS是什么? ODS层最好理解,基本上就是数据从源表拉过来,进行etl,比如mysql 映射到hive,那么到了hive里面就是ods层。 ODS 全称 ...
分类:
其他好文 时间:
2021-06-10 17:32:45
阅读次数:
0
1. Hadoop 概览Google 三篇论文(GFS -> HDFS,Map-Reduce -> MR,BigTable -> HBase)是 Hadoop 的思想之源。Hadoop 生态非常庞大,其最初两大核心是 HDFS 和 MR,分别负责存储和计算(Hadoop 1.x 中,MR 既负责计算 ...
运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sq ...
分类:
数据库 时间:
2021-06-07 20:36:05
阅读次数:
0
1. 安装启动检查Mysql服务。##netstat -tunlp (3306) cd /usr/local/hive/lib ls mysql* cp mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars/ cd /usr/local/ ...
分类:
数据库 时间:
2021-06-07 20:10:49
阅读次数:
0