我们学习hadoop,最常见的编程是编写mapreduce程序,但是,有时候我们也会利用java程序做一些常见的hdfs操作。比如删除一个目录,新建一个文件,从本地上传一个文件到hdfs等,甚至是追加内容到hdfs文件中。 这里介绍一些常见的hdfs操作的java示例,帮助我们加深对hdfs的理解。 ...
分类:
编程语言 时间:
2021-01-19 11:58:35
阅读次数:
0
热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机,恢复流程是什么样的? 5.通常你是如何解决Haddop的NameNode宕机的,流程是什么? 6.描述一下NameNode对元数据的管理 7.NameNo ...
分类:
其他好文 时间:
2021-01-14 10:47:06
阅读次数:
0
1.UDAF定义 spark中的UDF(UserDefinedFunction)大家都不会陌生, UDF其实就是将一个普通的函数, 包装为可以按 行 操作DataFrame中指定Columns的函数. 例如, 对某一列的所有元素进行+1操作, 它对应mapreduce操作中的map操作. 这种操作有 ...
分类:
其他好文 时间:
2021-01-04 11:31:11
阅读次数:
0
##每周总结 |学习时间|代码量|博客量|学习的知识点|下周任务| | | | | | | |20小时|1800左右|1篇|做了mapreduce实例|继续完成xxxx系统| ...
分类:
其他好文 时间:
2021-01-01 12:12:26
阅读次数:
0
MapReduce详细工作流程之Map阶段 如上图所示 首先有一个200M的待处理文件 切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片 提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要提交jar包;本地 ...
分类:
其他好文 时间:
2020-12-22 12:23:51
阅读次数:
0
1、提交任务 //提交任务直到返回结果job.waitForCompletion(true); 2、点击waitForCompletion方法到Job.java类 3、跟进到submit方法,调用方法: return submitter.submitJobInternal(Job.this, clu ...
分类:
其他好文 时间:
2020-12-21 11:24:14
阅读次数:
0
Ambari2.7.4+HDP3.1.4安装Centos7离线安装标签(空格分隔):大数据平台构建一:关于HDP的介绍二:系统环境介绍三:系统环境初始化四:安装HDP3.1.4平台一:关于HDP的介绍1.1ambari的介绍Ambari是一种基于Web的工具,支持ApacheHadoop集群的创建、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、P
分类:
其他好文 时间:
2020-12-16 11:45:59
阅读次数:
4
什么是Hive? Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将SQL转化成MapReduce程序。 1、Hive 处理的数据存储在HDFS; 2、Hiv ...
分类:
其他好文 时间:
2020-12-03 11:43:46
阅读次数:
3
MapReduce既是一个编程模型,也是一个计算组件,处理的过程分为两个阶段,Map阶段:负责把任务分解为多个小任务,Reduce负责把多个小任务的处理结果进行汇总。其中Map阶段主要输入是一对Key-Value,经过map计算后输出一对Key-Value值;然后将相同Key合并,形成Key-Value集合;再将这个Key-Value集合转入Reduce阶段,经过计算输出最终Key-Value结果集。
分类:
其他好文 时间:
2020-11-26 14:53:23
阅读次数:
6
01 我们一起学大数据 今天老刘分享的是MapReduce知识点的第二部分,在第一部分中基本把MapReduce的工作流程讲述清楚了,现在就是对MapReduce零零散散的知识点进行总结,这次的内容大纲如下图: 02 需要谨记的知识点 第6点:自定义分区 在上篇文章里的第五点提到过这句话:分区用到了 ...
分类:
其他好文 时间:
2020-11-25 12:39:39
阅读次数:
6