hadoop集群某个节点dfs存储比其他节点存储高时,一般会使用hadoop提供的balance(start-balancer.sh -threshold 10 )工具来移动高存储节点上的块到低存储节点上. 其中 -threshold 默认设置:10,参数取值范围:0-100,参数含义:判断集群是否 ...
分类:
其他好文 时间:
2018-12-08 21:10:12
阅读次数:
226
时隔两个星期,学习了和复习了大数据的一些基本操作,第一系列是ubuntu的基础! 基础涉及到: 1.virtualBOX的安装和使用 2.FTP工具传输 3.root用户密码设置和vim的安装 4.创建用户并设置权限:这里使用Hadoop用户 5.ssh免密码登入的设置 6.Java环境的安装和配置 ...
分类:
系统相关 时间:
2018-12-08 20:17:35
阅读次数:
186
注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6627669615377908231/ Hadoop环境已安装完成,安装hive 注意1.x和2.x版本区别较大,此处安装的是1.x的版本 准备安装包 使用hadoop用户 解压文件到/opt/bigdata 修改文 ...
分类:
其他好文 时间:
2018-12-07 11:49:25
阅读次数:
200
1.简介Hadoop是大数据通用处理平台,提供了分布式文件存储以及分布式离线并行计算,由于Hadoop的高拓展性,在使用Hadoop时通常以集群的方式运行,集群中的节点可达上千个,能够处理PB级的数据。Hadoop各个模块剖析:https://×××w.cnblogs.com/funyoung/p/9889719.html2.Hadoop集群架构图3.Hadoop集群搭建3.1修改配置1.配置SSH
分类:
其他好文 时间:
2018-11-23 18:27:13
阅读次数:
186
第4章 开发MapReduce程序 4.1 使用非Java语言操作Hadoop 4.1.1 Hadoop Streaming工作原理 4.1.2 使用Hadoop Streaming的原因 4.2 实践环节:使用Streaming实现Word-Count 4.3 分析大数据集 4.3.1 获取UFO... ...
分类:
其他好文 时间:
2018-11-23 16:48:06
阅读次数:
170
本课内容1.Spark中Scala集合操作鉴赏2.Scala集合操作实战 /** * 大数据技术是数据的集合以及对数据集合的操作技术的统称,具体来说: * 1.数据集合:会涉及数据的搜集、存储等,搜集会有很多技术,存储现在比较经典的是使用Hadoop, * 也有很多情况使用Kafka(消息中间件,也 ...
分类:
其他好文 时间:
2018-11-20 15:07:07
阅读次数:
183
hadoop入门学习教程--DKHadoop完整安装步骤 使用hadoop版本是DKH标准三节点发行版,DKHadoop版本的易用性比较好,环境部署要简单的多,参考此篇安装前请先下载DKHadoop版本,网盘链接:https://pan.baidu.com/s/1-427Sh6lTLrLAPh6KM ...
分类:
其他好文 时间:
2018-11-07 11:17:41
阅读次数:
215
项目需求,有一个spark-streaming的程序,读kafka的数据,需要构建一个不使用hadoop的spark 以下建立的镜像参考网络,可以稍加修改就可以使用不同的版本。 可单独启动master,worker来构建一个standaline的集群。 也可以默认启动,启动后,构建的是一个maste ...
分类:
其他好文 时间:
2018-11-05 16:13:27
阅读次数:
359
安装完后却不能运行Hadoop,仔细查看日志信息,Hadoop记录了详尽的日志信息,日志文件保存在logs文件夹内。 无论是启动,还是以后会经常用到的MapReduce中的每一个job,以及HDFS等相关信息,Hadoop均存有日志文件以供分析。 例如: NameNode和DataNode的name ...
分类:
其他好文 时间:
2018-09-18 19:53:42
阅读次数:
127
假如我们只有3台linux虚拟机,主机名分别为hadoop01、hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: 下面我们来介绍启动hdfs和yarn的一些命令。 1.启动hdfs集群(使用hadoop的批量启动脚本) 从上面的启动日志可以看出,start-dfs ...
分类:
其他好文 时间:
2018-08-25 17:34:00
阅读次数:
193