今日内容:1) hive的自定义函数 (简单会实现即可)2) hive优化部分: 能够理解, 知道有这些优化方案 , 记录 2.1: hive的数据压缩 2.2: hive的数据存储格式 2.3: fetch抓取 2.4: 本地模式 2.5: join的优化 2.6: SQL优化的方案 2.7: 动 ...
分类:
其他好文 时间:
2020-08-10 09:24:13
阅读次数:
57
Kettle巧用公式轻松实现数据抽取(图文并茂,带案例讲解)
分类:
其他好文 时间:
2020-08-08 00:40:05
阅读次数:
93
一. SparkSQL简介 Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。 Dremel > Drill(Apache) >Impala(Cloudrea) Presto(Hotonworks) Hive > Shark(对Hive的模仿,区别在 ...
分类:
数据库 时间:
2020-08-07 21:45:52
阅读次数:
79
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties 1 2 3 4 ...
分类:
数据库 时间:
2020-08-03 19:56:21
阅读次数:
103
一、安装Anaconda3 下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 注意:Anaconda自带Python,根据要安装的python版本选择对应的anaconda包,我安装的是Anaconda3-2018.12-Linu ...
分类:
系统相关 时间:
2020-08-01 21:23:55
阅读次数:
92
1,简介 Hive : 数据仓库。Hive:解释器,编译器,优化器等。Hive 运行时,元数据存储在关系型数据库里面 2,架构 (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至H ...
分类:
其他好文 时间:
2020-07-30 01:33:30
阅读次数:
77
Impyla是用于分布式查询引擎的HiveServer2实现(如Impala、Hive)的python客户端 1)安装impyla pip install impyla 安装报错 解决办法: 根据提示下载对应的工具 https://visualstudio.microsoft.com/zh-hans ...
分类:
编程语言 时间:
2020-07-29 21:58:39
阅读次数:
103
第1章 Superset安装及使用 Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。 由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自 ...
分类:
其他好文 时间:
2020-07-29 00:42:59
阅读次数:
103
1 hadoop集群安装 https://blog.csdn.net/shshheyi/article/details/84893371 1.1 修改主机名 [root@localhost ~]# vim /etc/hosts # 三台机器都需要操作 192.168.28.131 master 19 ...
分类:
其他好文 时间:
2020-07-29 00:41:18
阅读次数:
111
php 压缩文件夹 例子来源于php官方文档。 <?php { /** * Add files and sub-directories in a folder to zip file. * @param string $folder * @param ZipArchive $zipFile * @p ...
分类:
Web程序 时间:
2020-07-28 16:55:09
阅读次数:
90