运用MapReduce来统计一个文章的重复的字数 1.准备一篇文章,并且上传到hdfs 注意编码是要utf 8 这样上传到liunx上面才不会乱码 先上传到linux :rz 在上传到hdfs :hadoop fs put 琵琶行.txt / 2.写MapReduce程序 MapReduce基于ya ...
分类:
其他好文 时间:
2020-03-05 00:59:47
阅读次数:
69
HDFS的热备份 其实现原理就是在联邦HDFS下,每两个NameNode形成一组。这组NameNode一个状态为Active一个状态为StandBy,通过ZooKeeper进行管理。 Active和StandBy之间可以进行通信。当其中Active的NameNode出故障的时候。会通过ssh或者sh ...
分类:
其他好文 时间:
2020-03-04 09:41:47
阅读次数:
74
短URL设计。案例: Rate Limit 流量限制编程语言太多。Go语言。Python动态语言。类型没有检查。随意改变类。 Spring : 反转。数据流: 分布式。Storage: HDFS,MySQL cloud Platform amazon google 流量大了怎么弄? consiste ...
分类:
其他好文 时间:
2020-03-04 09:31:03
阅读次数:
81
联邦Hadoop 是NameNode的水平拓展方案。该方案允许HDFS创建多个NameSpece(两个为一对)以提高集群的拓展性和隔离性,联邦HDFS允许每个NameNode管理文件系统命名空间的一部分。每个NameNode维护一个命名空间,不同NameNode之间的命名空间相互独立。数据块池不再切 ...
分类:
其他好文 时间:
2020-03-04 09:18:04
阅读次数:
73
配置core-site.xml <configuration> <!-- 把两个NameNode)的地址组装成一个集群mycluster --> <property> <name>fs.defaultFS</name> <value>hdfs://mycluster</value> </proper ...
分类:
其他好文 时间:
2020-03-04 00:07:55
阅读次数:
86
HDFS如何保护高可用 1. NameNode 通过JournalNode和DFSZKFailoverController实现。 JournalNode负责主从数据一致; ZKFC负责主从的Failover(通过ssh或shell实现防止脑裂). 2. JournalNode 自生也是分布式的,因为 ...
分类:
其他好文 时间:
2020-03-03 22:24:17
阅读次数:
86
1,文件结构 · bin:脚本和命令目录。 · etc:配置文件目录。 · sbin:命令目录,主要包含HDFS和YARN中各类服务的启动和关闭,依赖于bin中的脚本。 · share:各个模块编译后的jar包,和示例代码。 · libexec:各个服务的shell配置文件目录,比如配置日志输出目录 ...
分类:
其他好文 时间:
2020-03-03 01:12:53
阅读次数:
70
Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalNode 的RPC端口 8019 : ZKFC端口 Zookeeper: 218 ...
分类:
Web程序 时间:
2020-03-03 01:09:01
阅读次数:
118
HDFS写流程 步骤:1.客户请求namenode上传文件,附带路径2.namenode检查,并响应是否允许3.客户端将文件分块,并请求分配block和datanode地址4.namenode响应客户端求,给定地址d1、d4、d65.客户端建立管道:d1收到请求继续调用d4,d4再调用d6。按照po ...
分类:
其他好文 时间:
2020-03-02 23:06:27
阅读次数:
69
一:数据表建立 (一)创建数据库 hive> create database hadoop; hive> use hadoop; 数据库位置在 hdfs://ns1/user/hive/warehouse/hadoop.db目录下 (二)建表 hive> create table t_order(i ...
分类:
其他好文 时间:
2020-03-02 20:36:46
阅读次数:
82