最近学习大数据相关的知识,便于对学习知识进行整理记忆,特将学习过程中的一些内容记录于此。 本地环境: Linux系统:Centos 7(最小安装) 内存:4G CPU: 2 网卡:2(IP:10.0.2.5、192.168.56.200) JDK版本:1.8 Hadoop版本:3.2.1 一、虚拟机 ...
分类:
其他好文 时间:
2020-06-18 12:38:35
阅读次数:
45
iaas 基础架构及服务 场景:虚拟机硬件环境 自己部署软件 paas: 平台机架构里边有硬件操作系统有开发环境,可直接工作 saas :软件机服务 在PaaS的基础上连软件都做好了 微软的‘’office‘’软件可直接在在浏览器上运行 Ansible 基于Python开发的;不需要配置代理 可以基 ...
分类:
其他好文 时间:
2020-06-18 01:14:55
阅读次数:
83
zookeeper简介: ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目 ...
分类:
其他好文 时间:
2020-06-17 09:16:36
阅读次数:
76
1,在hdfs-site.xml 中配置多目录,提前配置好,以免以后要配置时,需要重启集群。 2,namenode 有一个工作线程池,用来处理不同的datanode的并发心跳和客户端访问并发请求。配置dfs.namenode.handler.count=20 * log2(Cluster Size) ...
分类:
其他好文 时间:
2020-06-16 13:33:15
阅读次数:
64
1,如果预聚合不影响最终结果,可以使用conbine,提前对数据聚合,减少数据量。 2,使用2次mr的方式。第一次mr,在map输出是给key加上一个前缀,则可以把相同的key分配到不同的reduce聚合,可以实现同一个key数据量大的问题;第二次mr对把第一次mr输出的数据的key去掉前缀,在聚合 ...
分类:
其他好文 时间:
2020-06-16 13:24:44
阅读次数:
54
把Java打包成jar的步骤: 右击项目,找到export确定 然后在export弹窗中找到Java文件 Java->Runnable JAR file,后点击next 最后选择要打包的项目,存放打包项目的位置,然后finish就可以进行打包了。 在Linux上运行Hadoop jar hadoop ...
分类:
编程语言 时间:
2020-06-16 13:05:18
阅读次数:
103
张耀的博客 徐大神博客 品茶大神博客 hadoop大神博客 opesn Elastic 中国社区官方博客 IT技术电子书 ...
分类:
其他好文 时间:
2020-06-16 13:05:02
阅读次数:
47
yarn 一共有3个类型的调度器:FIFO调度器、容量调度器、公平调度器。 1,FIFO调度器。先进先出,队列中同一时间只有一个任务在运行。该任务独占整个集群的资源。 2,容量调度器。多队列,每个队列内部先进先出,同一个队列同时间只有一个任务在运行,任务的并行度为队列的个数。 3,公平调度器。同个队 ...
分类:
其他好文 时间:
2020-06-16 11:35:39
阅读次数:
107
元数据更新过程? MapReduce的Shuffle过程? HDFS的读的流程? HDFS写的流程? 如何将hadoop配置文件从一台机器同步到另一台机器上? scp -r hadoop-2.7.3 hpsk@192.168.134.222:/opt/modules/ 如何终止yarn上正在运行的程 ...
分类:
其他好文 时间:
2020-06-15 23:20:15
阅读次数:
144
https://www.cse.unsw.edu.au/~cs9313/20T2/slides/L2.pdf https://drive.google.com/drive/folders/13_vsxSIEU9TDg1TCjYEwOidh0x3dU6es 第二节课花了40分钟讲,如果dataNode ...
分类:
其他好文 时间:
2020-06-15 18:02:14
阅读次数:
50