一、hdfs概述 介绍: 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数 ...
分类:
其他好文 时间:
2020-08-13 12:16:47
阅读次数:
60
一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
分类:
其他好文 时间:
2020-08-13 12:07:11
阅读次数:
88
设置datax java 堆栈内存大小python datax.py --jvm="-Xms5G -Xmx5G" 编译插件mvn -U clean package assembly:assembly -Dmaven.test.skip=true ...
分类:
其他好文 时间:
2020-08-13 11:49:41
阅读次数:
46
全球性革命数据存储,HDFS即将上线在这个互联网时代,随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式管理系统的最大的变化就是管理对象不再是单机本地分布的,而是分布于网络中。分布式系统同样要为用户提供对文件和目录的相关操作。那么分布式存储类型有哪些呢?HD
分类:
其他好文 时间:
2020-08-12 15:37:17
阅读次数:
61
1,-mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。 2,-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选 ...
分类:
其他好文 时间:
2020-08-05 18:13:32
阅读次数:
89
浅析HDFS分布式存储有哪些优势特点近年,随着区块链、大数据等技术的推动,全球数据量正在无限制地扩展和增加。分布式存储的兴起与互联网的发展密不可分,互联网公司由于其大数据、轻资产的特点,通常使用大规模分布式存储系统。那么分布式存储的种类有哪些呢?分布式存储包含的种类繁多,除了传统意义上的分布式文件系统、分布式块存储和分布式对象存储外,还包括分布式数据库和分布式缓存等,但其中架构无外乎于三种:A、中
分类:
其他好文 时间:
2020-08-05 00:01:18
阅读次数:
97
Hbase在hdfs上的存储位置,根目录是由配置项hbase.rootdir决定,默认就是"/hbase" 其中hbase master 的webui 由参数hbase.master.info.port决定,一般配置为 60010 [dip@g3-test-36 ~]$ hadoop fs -ls ...
分类:
其他好文 时间:
2020-07-30 19:45:37
阅读次数:
104
参考链接: https://community.cloudera.com/t5/Support-Questions/HDP-3-0-with-local-repository-failing-to-deploy/td-p/240954 https://community.cloudera.com/t ...
分类:
Web程序 时间:
2020-07-30 18:12:28
阅读次数:
82
一、HDFS-HA集群配置 1.环境准备 1. 修改IP 2. 修改主机名及主机名和IP地址的映射 3. 关闭防火墙 4. ssh免密登录 5. 安装JDK,配置环境变量等 2.规划集群 hadoop102 hadoop103 hadoop104 NameNode NameNode JournalN ...
分类:
其他好文 时间:
2020-07-28 22:19:09
阅读次数:
77