一、概述 当CDH平台开启kerberos后,需要kdc服务验证通过和kerberos协议验证通过才可以。如果将spark程序部署在CDH 机器上,直接在生成keytab并使用principal登录kerberos即可。 如果当spark应用程序部署在第三方机器上时,还需要处理krb5.conf注册 ...
分类:
其他好文 时间:
2020-08-13 12:07:11
阅读次数:
88
设置datax java 堆栈内存大小python datax.py --jvm="-Xms5G -Xmx5G" 编译插件mvn -U clean package assembly:assembly -Dmaven.test.skip=true ...
分类:
其他好文 时间:
2020-08-13 11:49:41
阅读次数:
46
全球性革命数据存储,HDFS即将上线在这个互联网时代,随着数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式管理系统的最大的变化就是管理对象不再是单机本地分布的,而是分布于网络中。分布式系统同样要为用户提供对文件和目录的相关操作。那么分布式存储类型有哪些呢?HD
分类:
其他好文 时间:
2020-08-12 15:37:17
阅读次数:
61
1,-mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。 2,-ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选 ...
分类:
其他好文 时间:
2020-08-05 18:13:32
阅读次数:
89
浅析HDFS分布式存储有哪些优势特点近年,随着区块链、大数据等技术的推动,全球数据量正在无限制地扩展和增加。分布式存储的兴起与互联网的发展密不可分,互联网公司由于其大数据、轻资产的特点,通常使用大规模分布式存储系统。那么分布式存储的种类有哪些呢?分布式存储包含的种类繁多,除了传统意义上的分布式文件系统、分布式块存储和分布式对象存储外,还包括分布式数据库和分布式缓存等,但其中架构无外乎于三种:A、中
分类:
其他好文 时间:
2020-08-05 00:01:18
阅读次数:
97
1 基本程序结构 Table API 和 SQL 的程序结构,与流式处理的程序结构类似;也可以近似地认为有这么几步:首先创建执行环境,然后定义 source、transform 和 sink。 具体操作流程如下: val tableEnv = ... // 创建表的执行环境 // 创建一张表,用于读 ...
分类:
数据库 时间:
2020-08-04 14:03:48
阅读次数:
83
0、题记实际业务场景中,会遇到基础数据存在Mysql中,实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。而mysql写入kafka的选型方案有:方案一:logstash_output_kafka插件。方案二:kafka_connector。方案三:debezium插件。方案四:flume。方案五:其他类似方案。其中:debezium和flume是基于mysqlbinlog实
分类:
数据库 时间:
2020-08-01 12:38:39
阅读次数:
93
Hbase在hdfs上的存储位置,根目录是由配置项hbase.rootdir决定,默认就是"/hbase" 其中hbase master 的webui 由参数hbase.master.info.port决定,一般配置为 60010 [dip@g3-test-36 ~]$ hadoop fs -ls ...
分类:
其他好文 时间:
2020-07-30 19:45:37
阅读次数:
104
参考链接: https://community.cloudera.com/t5/Support-Questions/HDP-3-0-with-local-repository-failing-to-deploy/td-p/240954 https://community.cloudera.com/t ...
分类:
Web程序 时间:
2020-07-30 18:12:28
阅读次数:
82