本文对Hadoop+HBase+Spark+Hive环境搭建方法和步骤进行了详细介绍和说明,记录于此,供各位同学及自己参考研究。 ...
分类:
其他好文 时间:
2021-02-05 10:38:53
阅读次数:
0
Spark环境配置 spark-env.sh #JAVA_HOME export JAVA_HOME=/export/servers/jdk1.8.0_271 #Spark Master Address #export SPARK_MASTER_HOME=node01 export SPARK_MA ...
分类:
其他好文 时间:
2021-02-04 11:53:09
阅读次数:
0
Java第一课 一、数据类型 原始数据类型(八大数据类型) 数据类型取值 boolean true/false byte(1个字节) -128到127 short(2个字节) -32768到32767 char(2个字节) 0到65535 int(4个字节) -2^31~2^31-1 long(8个 ...
分类:
编程语言 时间:
2021-02-03 10:36:02
阅读次数:
0
每个task处理一个partition,一个文件的大小/128M就是task的数量 Task的最大并发数 当task被提交到executor之后,会根据executor可用的cpu核数,决定一个executor中最多同时运行多少个task。 默认情况下一个task对应cpu的一个核。如果一个exec ...
分类:
其他好文 时间:
2021-02-02 11:14:58
阅读次数:
0
什么是限流器? 限流器是一种限制某种操作在一定时间内的执行次数(例如每秒钟5次)或者执行量(例如每秒钟1G大小的数据)的机制。 限流器是一种防御性的编程实现方式,在大数据量高并发访问时,经常会出现服务或接口面对暴涨的请求而不可用的情况,甚至引发连锁反映导致整个系统崩溃。此时你需要使用的技术手段之一就 ...
分类:
其他好文 时间:
2021-01-30 12:19:16
阅读次数:
0
#kafka ##1.kafka基础架构 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 消息生产者(发布)将消息发布到topic中,同时有多个消息消费者(订阅)消费该消息。和点对点方式不同,发布到topic的消息会被所有订阅者消费。 (1)Producer : ...
分类:
其他好文 时间:
2021-01-30 12:13:24
阅读次数:
0
ZooKeeper是什么 就像冯巩每次出场都说:“亲爱的观众朋友们,我想死你们啦”一样,我再哔哔一次,学习大数据官网很重要。Zookeeper官网看这里ZooKeeper ZooKeeper 是一个开源的分布式协调服务,它本身也是分布式设计。它提供了一组简单的原语,基于这些指令,分布式应用能够实现同 ...
分类:
其他好文 时间:
2021-01-30 12:04:59
阅读次数:
0
Q:第一次提交wordcount案例,OK,一切正常。再次提交,出现下述错误。完整错误粘贴如下: 21/01/27 14:55:48 INFO spark.SecurityManager: Changing modify acls groups to: 21/01/27 14:55:48 INFO ...
分类:
编程语言 时间:
2021-01-28 11:56:52
阅读次数:
0
spark 从数据库中读取数据的几种方式,以Mysql 为例 创建spark val spark = SparkSession.builer().appName("用户标签").master("local[*]").getOrCreate() val url = "jdbc:mysql://数据库地 ...
分类:
数据库 时间:
2021-01-27 13:56:39
阅读次数:
0
引言 RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value类型,本文主要讲一些Value 类型 正文 资源路径和资源内容 map ###函数签名:def map[U: ClassTag](f: T ? U): RDD[U] ###函数说明:将处 ...
分类:
其他好文 时间:
2021-01-27 12:50:51
阅读次数:
0