1.安装MySql 2.windows 与 虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的,可在虚拟机里用浏览器下载安装文件,课件: 提取文件:hadoop-2.7.1.tar.gz 链接: https://pan.baidu.com/s/1HIVd9JCZstWm0k7sA ...
分类:
数据库 时间:
2019-05-12 17:09:15
阅读次数:
205
一、说明 本次配置基于上一篇博客《Hadoop完全分布式搭建全过程》做补充,基于完全分布式做高可用搭建。。。。。。 二、原理 Hadoop1.X中只有一个NameNode,所有元数据信息都被这个NameNode管理,存在两个问题:单点故障和内存压力大,所以在Hadoop2.X中对两个存在的问题分别有 ...
分类:
其他好文 时间:
2019-05-06 18:46:55
阅读次数:
132
Storm集群的安装分为以下几步: 1、首先保证Zookeeper集群服务的正常运行以及必要组件的正确安装 2、释放压缩包 3、修改storm.yaml添加集群配置信息 4、使用storm脚本启动相应服务并查看服务状态 5、通过web查看storm集群的状态 安装Storm之前首先保证之前安装的Zo ...
分类:
其他好文 时间:
2019-04-27 19:54:46
阅读次数:
174
1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv ...
分类:
其他好文 时间:
2019-04-27 00:27:57
阅读次数:
132
Spark 一种基于内存的快速、通用、可扩展的大数据分析引擎; 内置模块: Spark Core(封装了rdd、任务调度、内存管理、错误恢复、与存储系统交互); Spark SQL(处理结构化数据)、Spark Streaming(对实时数据进行流式计算) 、 Spark Mlib(机器学习程序库包 ...
分类:
其他好文 时间:
2019-04-06 00:35:59
阅读次数:
155
Hadoop 服务划分 使用三台节点,集群部署规划如下 服务\主机 hadoop1 hadoop2 hadoop3 HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager ...
分类:
其他好文 时间:
2019-03-30 23:59:19
阅读次数:
346
SKU库存量,剩余多少SPU商品聚集的最小单位,,,这类商品的抽象,提取公共的内容 订单表:周期性状态变化(order_info) id 订单编号 total_amount 订单金额 order_status 订单状态 user_id 用户id payment_way 支付方式 out_trade_ ...
分类:
其他好文 时间:
2019-03-25 00:56:57
阅读次数:
846
一、知识梳理1.1、背景表结构1.1.1、order by1.1.2、sort by1.1.3、distribute by1.1.4、cluster by1.2、行转列、列转行(UDAF 与 UDTF)1.2.1、行转列1.2.2、列转行1.3、建表时的数组操作1.4、orc 存储1.5、Hive ...
分类:
其他好文 时间:
2019-03-03 09:41:48
阅读次数:
209
从该原理图中可以知道:在hadoop2的版本中:resource manager也就是YARNz是只负责资源的调度和回收而不参与应用程序的内部运作机制与运算,而在hadoop1的版本中,resourc manager不但要负责资源的调度和回收还要参与具体的运算。 在hadoop2中resouce m ...
分类:
其他好文 时间:
2019-01-13 20:02:57
阅读次数:
210
1.YARN的基础理论1)关于YARN的介绍:??YARN是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2)hadoop1.x中YARN的不足:??-JobTracker是集群的事务的集中处理,存在单点故障??-JobTracker
分类:
其他好文 时间:
2019-01-13 18:11:46
阅读次数:
388