搜索关键字：hdfs dfsadmin，搜索到4996个结果！码迷,mamicode.com！

hive启动时 java.net.ConnectException:拒绝连接

原因： 1.防火墙没关闭（对应端口没有打开） 2.hadoop集群没有启动成功 3.hadoop集群处于安全模式 4.网络问题解决方案： 1.关闭防火墙 2.jps查看进程，出现下面几个进程则启动成功。 hdfs三个进程中，datanode和namenode只有一个启动成功，可能是namenode ...

分类：编程语言时间：2020-05-15 13:11:20 阅读次数：271

Hdfs手动执行Balance

问题发现：经巡检，服务器中一台节点的hadoop磁盘占用过多，是其它节点的三倍，导致数据严重不均衡。解决过程：两种命令： hadoop的bin目录下，运行命令start-balancer.sh -threshold 5 hdfs balancer -threshold 5 两者的执行效果是一样 ...

分类：其他好文时间：2020-05-15 00:40:42 阅读次数：149

Linux中判断hdfs文件是否存在

在Linux文件系统中，我们可以使用下面shell脚本判断某个文件是否存在： # 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then echo "文件不存在!" fi 但是我们想判断hdfs上某个文件是否存在咋办呢？Hadoop内置提供了判断某个文件是否存在的命 ...

分类：系统相关时间：2020-05-14 11:33:50 阅读次数：70

分布式文件系HDFS-部署和配置

1 部署HDFS HDFS的基本操作可以分为集群管理和文件系统操作两种类型：集群管理：包括Namenodede 的格式化、集群的启动和停止、集群信息查看等。文件系统：包括对目录、文件和权限等内容的操作。 HDFS中的命令主要在sbin和bin目录下[一般要进行环境变量的设置]： sbin:集群控 ...

分类：其他好文时间：2020-05-12 09:17:05 阅读次数：81

打包运行项目部署 startalone模式和 yarn模式

1 打包运行项目部署 startalone模式和 yarn模式 2 1：把local 本地运行删掉输入输出路径改为args(0) args(1) 删除左边target文件 3 顶部 bulid->bulid project 然后右侧打包package 在target下拷贝jar包到桌面上 4 ...

分类：其他好文时间：2020-05-11 15:06:35 阅读次数：88

大数据 Hadoop

Hadoop概述： Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。H ...

分类：其他好文时间：2020-05-09 23:07:57 阅读次数：222

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data ...

分类：数据库时间：2020-05-09 19:20:15 阅读次数：100

HBase与Hive

二者对比 1.Hive 数据仓库：本质其实就相当于将hdfs中已经存储的文件在Mysql中做了一个双射关系，以方便用HQL去管理查询。用于数据分析、清洗：Hive适用于离线的数据分析和清洗，延迟较高。基于HDFS、MapReduce：Hive存储的数据依旧在DataNode上，编写的HQL语句终 ...

分类：其他好文时间：2020-05-09 01:23:51 阅读次数：63

TDH使用客户端操作方式

一、概述 TDH使用方式和CDH有很大不同，需要先下载客户端，然后source其中的init.sh文件，使之生效，然后才能使用hdfs命令。二、步骤 1、进入到管理界面，然后下载客户端 2、建立一个个人目录 mkdir /home/demo 然后将下载的客户端放入该目录中，解压客户端文件 sour ...

分类：其他好文时间：2020-05-08 20:14:03 阅读次数：247

Spark中rdd分区数量的决定因素

1、参数配置(并行度)分区的默认个数等于对spark.default.parallelism的指定值2、根据父rdd的reduceTask数量3、读取hdfs的文件生成的rddrdd分区的数量等于hdfs的文件的block4、sparkStreaming生成的rdd根据block interval， ...

分类：其他好文时间：2020-05-08 16:12:24 阅读次数：129

共4996条上一页 1 ... 24 25 26 27 28 ... 500 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)