多表之间的连接有三种方式:Nested Loops,Hash Join 和 Sort Merge Join. 下面来介绍三种不同连接的不同: 一. NESTED LOOP: 对于被连接的数据子集较小的情况,嵌套循环连接是个较好的选择。在嵌套循环中,内表被外表驱动,外表返回的每一行都要在内表中检索找到 ...
分类:
其他好文 时间:
2019-10-01 18:48:29
阅读次数:
98
本篇文章是基于Docker搭建大数据集群系列的开篇之作 主要内容 1. docker搭建 2. docker部署CentOS 3. 容器免密钥通信 4. 容器保存成镜像 5. docker镜像发布 环境 Linux 7.6 一、Docker安装 安装工具包 设置远程仓库 安装 启动 查看版本 校验 ...
分类:
其他好文 时间:
2019-09-30 12:54:53
阅读次数:
106
基于Docker搭建大数据集群(七)Hbase搭建 一、安装包准备 "Hbase官网下载" ) "微云下载 | 在 tar 目录下" 二、版本兼容 三、角色分配 节点|Master|Regionserver | | cluster master|yes|no cluster slave1|backu ...
分类:
其他好文 时间:
2019-09-30 12:47:55
阅读次数:
103
主要内容 1. jdk环境搭建 2. scala环境搭建 3. zookeeper部署 4. mysql部署 前提 docker容器之间能免密钥登录 yum源更换为阿里源 安装包 "微云分享 | tar包目录下" JDK 1.8.221 Scala 2.12.9 Zookeeper 3.5.5 My ...
分类:
其他好文 时间:
2019-09-30 12:38:38
阅读次数:
119
主要内容 Hadoop安装 前提 zookeeper正常使用 JAVA_HOME环境变量 安装包 "微云下载 | tar包目录下" Hadoop 2.7.7 角色划分 角色分配|NN|DN|SNN | | | cluster master|是|否|否 cluster slave1|否|是|是 clu ...
分类:
其他好文 时间:
2019-09-30 12:27:46
阅读次数:
97
主要内容 mlsql部署 前提 zookeeper正常使用 spark正常使用 hadoop正常使用 安装包 "微云下载 | tar包目录下" mlsql cluster 2.4_2.11 1.4.0.tar.gz mlsql console 1.4.0.tar.gz mlsql engine_2. ...
分类:
数据库 时间:
2019-09-30 12:25:46
阅读次数:
87
主要内容 spark部署 前提 zookeeper正常使用 JAVA_HOME环境变量 HADOOP_HOME环境变量 安装包 "微云下载 | tar包目录下" Spark2.4.4 一、环境准备 上传到docker镜像 解压 二、配置文件 spark env.sh slaves spark def ...
分类:
其他好文 时间:
2019-09-30 12:23:53
阅读次数:
88
基于Docker搭建大数据集群(六)Hive搭建 前言 之前搭建的都是1.x版本,这次搭建的是 hive3.1.2 版本的。。还是有一点细节不一样的 Hive现在解析引擎可以选择spark,我是用 spark 做解析引擎的,存储还是用的HDFS 我是在 docker 里面搭建的集群,所以都是基于do ...
分类:
其他好文 时间:
2019-09-27 12:19:45
阅读次数:
107
JavaScript 原生提供了数组类型,但是却没有链表,虽然平常的业务开发中,数组是可以满足基本需求,但是链表在大数据集操作等特定的场景下明显具有优势,那为何 JavaScript 不提供链表类型呢?怎么实现一个完整可用的链表呢? ...
分类:
编程语言 时间:
2019-09-26 23:42:44
阅读次数:
91
Hive调优-萌贝树母婴无骗子,多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的,不过,有时 Hive 的输入数据量是非常小的
分类:
其他好文 时间:
2019-09-21 19:30:36
阅读次数:
86