写流程 1.HDFS Client调用DistributedFileSystem.create(filePath)方法,去和NN进行【RPC】通信! 2.NN 会去check这个路径的文件是否已经存在,是否有权限能够创建这个文件! 假如都ok,就去创建一个新的文件,但是这时还没写数据,是不关联任何的 ...
分类:
其他好文 时间:
2020-06-25 11:57:36
阅读次数:
65
HDFS是什么:一种分布式文件管理系统 HDFS使用场景:适合一次写入,多次读出的场景,且不支持文件的修改 高容错性:当副本丢失时,自动增加副本 数据规模:GB,TB,PB 文件规模:百万 不适合快速访问 不适合大量的小文件:无法高效存储,会占用大量的namenode内存,寻址时间会大于读取时间 不 ...
分类:
其他好文 时间:
2020-06-24 19:30:01
阅读次数:
45
批量执行检查脚本: #!/bin/bash file_name="$1" if [ -z "$file_name" ];then echo "Pls input file path" exit 1 fi cat "$file_name"| while read line do hadoop fsck ...
分类:
其他好文 时间:
2020-06-24 17:58:36
阅读次数:
56
数据准备:【1】mysql数据库导出,以逗号间隔,方便后期解析【2】提交服务器:rz 上传到Linux虚拟机中【3】提交到集群中:hadoop fs –put emp.csv /input搁浅:关闭安全模式:hdfs dfsadmin -safemode leave实现简单的输入内容到文件: -ec... ...
分类:
其他好文 时间:
2020-06-24 15:54:09
阅读次数:
61
采集数据到HDFS 安装flume在虚拟机hdp-1中, 打开SFTP-hdp-1窗口,将fllume压缩包导入到虚拟机hdp-1的/root/目录中. 解压flume压缩包到/root/apps/下,命令: tar -xvzf apache-flume-1.6.0-bin.tar.gz -C ap ...
分类:
其他好文 时间:
2020-06-23 13:03:55
阅读次数:
59
HDFS分布式文件系统 一、课前准备 1. 安装VMware 15虚拟化软件 2. 安装Centos 7虚拟机3个 3. 安装3节点的hadoop2.X集群 4. 某台虚拟机节点安装IDEA 二、课堂主题 本堂课主要围绕HDFS进行讲解,主要包括三方面 1. 架构原理 2. 核心概念 3. HDFS ...
分类:
其他好文 时间:
2020-06-23 00:55:02
阅读次数:
109
默认配置文件 要获取的默认配置文件 文件存放在Hadoop的jar包中的位置 自定义配置文件[etc/hadoop]中 [core-default.xml] hadoop-common-2.10.0.jar/core-default.xml [core-site.xml] [hdfs-default ...
分类:
其他好文 时间:
2020-06-22 12:33:23
阅读次数:
48
数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:
其他好文 时间:
2020-06-22 00:56:04
阅读次数:
83
1.x MapReduce:计算+调度 HDFS:数据存储 Common:辅助工具 2.x MapReduce:计算 Yarn:资源调度 HDFS:数据存储 Common:辅助工具 ...
分类:
其他好文 时间:
2020-06-21 23:45:14
阅读次数:
83
NameNode 存储文件元数据(文件名,目录结构,文件属性,文件块列表,块所在DataNode) DataNode 文件块数据+数据校验和 Secondary NameNode 监控HDFS状态的后台程序 ...
分类:
其他好文 时间:
2020-06-21 23:27:51
阅读次数:
48