1、eclipse中编写代码后双击main方法 >Run as > java application ,然后指定的文件 就会提交到hdfs中。 2、查看文件:http://192.168.108.128:50070/dfshealth.html#tab-overview package hdfs24 ...
一、配置相关文件 在hadoop-2.9.2下etc/hadoop/core-site.xml中配置: <configuration> <!--指定HDFS中NameNode的地址--> <property> <name>fs.defaultFS</name> <value>hdfs://hadoo ...
分类:
其他好文 时间:
2020-03-01 14:06:24
阅读次数:
96
说起分布式文件管理系统,大家可能很容易想到 HDFS、GFS 等系统,前者是 Hadoop 的一部分,后者则是 Google 提供的分布式文件管理系统。除了这些之外,国内淘宝和腾讯也有自己的分布式文件管理系统,都叫 TFS( 和 )。 相对于上面提到的这些分布式文件管理系统而言,FastDFS 可能 ...
分类:
其他好文 时间:
2020-03-01 12:14:30
阅读次数:
60
1. 读操作 1. 客户端向namenode发起上传请求 2. namenode检查datanode是否已经存有该文件,并且检查客户端的权限 3. 确认可以上传后,根据文件块数返回datanode栈 注:namenode触发副本放置策略,如果客户端在集群内的某一台机器,那么副本第一块放置在该服务器上 ...
分类:
其他好文 时间:
2020-03-01 12:13:26
阅读次数:
64
HBase是Hadoop的一个子项目,用JAVA语言实现,是建立在HDFS的基础上的非关系型分布式数据库,目标是通过水平扩展的方式处理非常庞大的表。值得注意的是,HBase并非结构化数据库,而是介于非关系型数据库(nosql)与关系型数据库(RDBMS)之间,仅能存储非结构化数据和半结构化数据。 为 ...
分类:
其他好文 时间:
2020-03-01 00:09:42
阅读次数:
63
1、什么是Spark Spark是一种统一、快速、通用、可扩展的分布式大数据分析引擎。分布式体现在Spark一般情况是以集群模式存在,架构为Master/Slaver(主从结构)。大数据分析引擎体现在Spark能够分析数据,但是没有存储。一般线上的spark数据来源 (HDFS, Hive、Kafk ...
分类:
其他好文 时间:
2020-02-29 20:51:19
阅读次数:
74
1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop ...
分类:
Web程序 时间:
2020-02-29 20:49:02
阅读次数:
127
JobTracker 分配工作给若干机器. TaskTracker: 负责监督 光纤交换机. 块的概念: 一个块 64M. 还可以是 128M. 大文件切割成这种小块, 然后分布存储在不同机器上. 当然也可以并行处理. 名称节点: 整个 HDFS 集群管家, 负责元数据的存储. (index 数据块 ...
分类:
其他好文 时间:
2020-02-29 13:14:19
阅读次数:
78
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101
在搭好HA集群之后,想测试一下集群的高可用性,于是先把active的namenode给停掉: hadoop-daemon.sh stop namenode 或者直接kill掉该节点namenode的对应进程也可。 但是通过hdfs haadmin -getServiceState master1 查 ...
分类:
其他好文 时间:
2020-02-28 18:52:26
阅读次数:
101