运行环境 centos 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 在使用过程中可能遇到的问题: sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。sq ...
分类:
数据库 时间:
2021-06-07 20:36:05
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-06-07 20:05:58
阅读次数:
0
HDFS客户端环境准备 1.根据拷贝编译后的hadoop jar包到非中文路径 2.配置HADOOP_HOME环境变量 3. 配置Path环境变量 4.创建一个Maven工程HdfsClientDemo 5.导入相应的依赖坐标+日志添加 <dependencies> <dependency> <gr ...
分类:
其他好文 时间:
2021-06-06 19:12:37
阅读次数:
0
在计算机性能调试领域里,profiling 是指对应用程序的画像,画像就是应用程序使用 CPU 和内存的情况。 Go性能优化 CPU profile:报告程序的 CPU 使用情况,按照一定频率去采集应用程序在 CPU 和寄存器上面的数据 Memory Profile(Heap Profile):报告 ...
分类:
其他好文 时间:
2021-06-06 18:58:59
阅读次数:
0
@ Hadoop RPC 框架解析 网络通信模块是分布式系统中最底层的模块。它直接支撑了上层分布式环境下复杂的进程间通信(Inter-Process Communication, IPC)逻辑,是所有分布式系统的基础。远程过程调用(Remote Procedure Call, RPC)是一种常用的分 ...
分类:
其他好文 时间:
2021-06-02 19:49:37
阅读次数:
0
@ 前言-MR概述 MapReduce是一个分布式计算框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。主要由两部分组成:编程模型和运行时环 境。其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序 一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如 ...
分类:
其他好文 时间:
2021-06-02 19:46:24
阅读次数:
0
集群网络配置 分别设置修改主机名 master slave1 slave2 hostnamectl set-hostname 名字 分别配置/etc/hosts文件 查看openssh和rsync安装 rpm -qa | grep 名字 切换到Hadoop用户 各节点生成秘钥 ssh-keygen ...
分类:
系统相关 时间:
2021-06-02 15:27:52
阅读次数:
0
hadoop 1.0 1. 创建用户hadoop 2. 下载: curl -o hadoop-1.2.1-bin.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-1.2.1/hadoop-1.2.1-bin.tar.gz 3. ...
分类:
其他好文 时间:
2021-06-02 14:05:53
阅读次数:
0
一、大数据分析工具——Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它 ...
分类:
其他好文 时间:
2021-06-02 13:17:23
阅读次数:
0
安装准备 Spark 集群和 Hadoop 类似,也是采用主从架构,Spark 中的主服务器进程就叫 Master(standalone 模式),从服务器进程叫 Worker Spark 集群规划如下: node-01:Master node-02:Worker node-03:Worker 安装步 ...
分类:
其他好文 时间:
2021-05-24 17:07:05
阅读次数:
0