1、轮询策略:按照消息尽量保证每个分区的负载,消息会均匀分布到每个partition。写入消息的时候,key为null的时候,默认使用的是轮询策略。 2、随机策略:不使用。 3、按key写入策略:key.hash()%分区的数量。 4、自定义分区策略:类似于mapReduce指定分区。 乱序问题: ...
分类:
其他好文 时间:
2021-07-26 16:34:25
阅读次数:
0
在使用MapReduce的小测试的时候,Driver类启动,或报下面的错误 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j: ...
分类:
编程语言 时间:
2021-07-12 18:06:41
阅读次数:
0
import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}// 创建一个本地模式的StreamingContext, 两个工作线程, 1s的批处理间隔//Master要求 ...
分类:
其他好文 时间:
2021-07-02 16:32:11
阅读次数:
0
1.会编程,参考实验 1.1编程实现词频统计基本操作 主函数 public static void main(String[] args) throws Exception{ Configuration conf = new Configuration(); //程序运行时参数 String[] o ...
分类:
其他好文 时间:
2021-06-29 16:02:29
阅读次数:
0
package cn.irisz.steam import org.apache.flink.api.common.RuntimeExecutionMode import org.apache.flink.streaming.api.scala._ import org.apache.flink.t ...
分类:
其他好文 时间:
2021-06-29 15:38:43
阅读次数:
0
一、大数据的基本特征(4V,存储单位) 二、大数据对思维方式的影响 三、Google 三辆马车是什么? Google的文件系统GFS(Google File System)、分布式计算框架MapReduce、Bigtable 四、Hadoop 是什么,基本特征 基本特征: 五、Hadoop 生态系统 ...
分类:
其他好文 时间:
2021-06-28 18:27:13
阅读次数:
0
import it.bigdata.flink.study.SensorReding import org.apache.flink.api.common.serialization.SimpleStringSchema import org.apache.flink.streaming.api.s ...
分类:
其他好文 时间:
2021-06-25 16:39:11
阅读次数:
0
什么是任务调度 大数据平台技术框架支持的开发语言多种多样,开发人员的背景差异也很大,这就产生出很多不同类型的程序(任务)运行在大数据平台之上,如:MapReduce、Hive、Pig、Spark、Java、Shell、Python 等。 这些任务需要不同的运行环境,并且除了定时运行,各种类型之间的任 ...
分类:
其他好文 时间:
2021-06-23 17:16:53
阅读次数:
0
1.spark内存分配 MemoryManager |__StaticMemoryManager 静态内存管理机制 |__UnifiedMemoryManger 统一内存管理机制 1.静态内存管理机制 静态内存管理机制实现起来较为简单,但没有根据具体的数据规模和计算任务做相应的配置,很容易造成"一半 ...
分类:
其他好文 时间:
2021-06-23 17:02:31
阅读次数:
0
上一篇文章我们简单的介绍《 linux中sqoop实现hive数据导入到mysql》,本文将简单介绍如何通过sqoop把hive数据导入到mysql。一. 前期准备 实践本文内容,默认您已经安装和部署了hadoop,mysql,hive,sqoop等环境。如相关安装和部署有问题,可以参考《 linu ...
分类:
数据库 时间:
2021-06-19 19:26:08
阅读次数:
0