一、GitLab主要服务构成 二、GitLab的工作流程 三、Gitlab安装配置管理环境 使用centos7的环境配置 1.提前准备工作 1.关闭防火墙 systemctl stop firewalld 禁用防火墙开机启动 systemctl disable firewalld 2.关闭SELIN ...
分类:
其他好文 时间:
2020-05-31 11:20:47
阅读次数:
71
Apache Spark Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...
分类:
Web程序 时间:
2020-05-31 00:41:36
阅读次数:
95
最近工作中用了了Hadoop,比如用Hadoop来处理广告的一些pv量数据、点击数据等,最后统计后给运营展示每个广告的数据报表 首先自己了解了一些关于Hadoop的概念知识 hadoop平台提供了分布式存储(hdfs),分布式计算(mapredduce),任务调度(YARN)、对象存储(Ozone) ...
分类:
其他好文 时间:
2020-05-30 20:22:33
阅读次数:
94
第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中 ...
分类:
其他好文 时间:
2020-05-30 20:21:57
阅读次数:
82
管理 Facts (事实) %% Facts:抓取被管理主机的信息 (当playbook执行比较耗时时可以选择关闭这个功能) Facts:通过 setup模块 来收集被管理主机信息 setup获取收集主机信息 关闭Facts 好处:playbook在运行事很快,因为它不再收集受控节点主机信息了 ga ...
分类:
其他好文 时间:
2020-05-30 20:11:29
阅读次数:
69
第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flum ...
分类:
Web程序 时间:
2020-05-30 19:56:36
阅读次数:
89
第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha ...
分类:
其他好文 时间:
2020-05-30 19:42:06
阅读次数:
53
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive ...
分类:
其他好文 时间:
2020-05-30 19:36:05
阅读次数:
56
1、HBase安装说明 JDK1.7以上 Hadoop-2.5.0以上 Zookeeper-3.4.5 2、Hadoop2.6安装 1) 解压 tar -zxvf hadoop-2.6.0.tar.gz 2) 配置hardoop的jdk cd /root/tools/hadoop-2.6.0/etc ...
分类:
其他好文 时间:
2020-05-30 15:46:42
阅读次数:
67
#ansible ##1、 ansible的架构图 1)ansible基于ssh基础的配置管理、部署和任务执行系统 2)anisble是一个非常简单的模型驱动的配置管理,多节点部署和远程任务执行系统。Ansible作品通过SSH,不需要安装任何软件或守护进程在远程节点。扩展模块可以用任何语言编写 # ...
分类:
其他好文 时间:
2020-05-30 14:18:02
阅读次数:
93