一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系 ...
分类:
编程语言 时间:
2020-06-21 11:32:34
阅读次数:
65
元数据更新过程? MapReduce的Shuffle过程? HDFS的读的流程? HDFS写的流程? 如何将hadoop配置文件从一台机器同步到另一台机器上? scp -r hadoop-2.7.3 hpsk@192.168.134.222:/opt/modules/ 如何终止yarn上正在运行的程 ...
分类:
其他好文 时间:
2020-06-15 23:20:15
阅读次数:
144
4个site.xml文件和 3个env.sh文件和1个slave文件 1,core-site.xml 2,hdfs-site.xml 3,mapred-site.xml 4,yarn-site.xml 5,hadoop-env.sh 6,mapred-env.sh 7,yarn-env.sh 8,s ...
分类:
其他好文 时间:
2020-06-14 17:07:49
阅读次数:
141
一、HA概述 HA(High Available)即高可用(7*24小时不中断服务),实现高可用最关键的策略就是消除单点故障。HA严格地来说应该分成各个组件的HA机制,HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。NameNode ...
分类:
其他好文 时间:
2020-06-10 10:58:31
阅读次数:
72
1.前言 我们知道在ASP.NET Web Forms中,一个URL请求往往对应一个aspx页面,一个aspx页面就是一个物理文件,它包含对请求的处理。 而在ASP.NET MVC中,一个URL请求是由对应的一个Controller中的Action来处理的,由URL Routing来告诉MVC如何定 ...
分类:
Web程序 时间:
2020-06-06 18:21:59
阅读次数:
72
准备工作 创建一个 Spring 应用程序 在项目中添加 Spring JDBC 指定的最新的库 mysql connector java.jar, org.springframework.jdbc.jar org.springframework.transaction.jar。 创建 DAO 接口 ...
分类:
数据库 时间:
2020-05-17 16:10:32
阅读次数:
67
(1)利用TreeSet排序,该方式利用小顶堆和集合重复原理的方式 , 每过来一个数据 , 跟堆顶数据进行比较 , 如果比最小的大 , 则将过来的数据替换堆顶元素 , 否则直接跳过数据 . 以此对数据进行排序 . import java.io.File; import java.io.IOExcep ...
分类:
其他好文 时间:
2020-05-16 16:50:58
阅读次数:
50
规划:nn1.hadoop nn2.hadoop s1.hadoop s2.hadoop ZK: nn1 nn2 s1journalnode: nn1 nn2 s1DataNode: nn1 nn2 s1 s2NodeManager: nn1 nn2 s1 s2NameNode: nn1 nn2Re ...
分类:
系统相关 时间:
2020-05-09 21:12:33
阅读次数:
83
MapReduce的默认输出数据的间隔符是制表符,现在想改成逗号间隔,可通过Configuration对象修改 configuration.set("mapred.textoutputformat.ignoreseparator","true"); configuration.set("mapred ...
分类:
其他好文 时间:
2020-05-07 13:40:29
阅读次数:
67
1 package com.bawei.core 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 /** 7 * 单词统计 8 9 */ 10 object Spa ...
分类:
数据库 时间:
2020-05-05 18:27:44
阅读次数:
87