与现在相对热门的Clickhouse引擎相比,Druid对高并发的支持相对较好和稳定,但是Clickhouse在任务队列模式中的数据查询能力十分出色,但是对高并发支持不够友好,需要做好很多服务监控和预警。大数据组件中OLAP引擎的选型有很多,在数据的查询引擎层通常都具有两种或者以上的OLAP引擎,选... ...
分类:
其他好文 时间:
2021-04-07 10:30:18
阅读次数:
0
1.Spark概述 Apache Spark是一个闪电般快速的实时处理框架。它进行内存计算以实时分析数据。由于 Apache Hadoop MapReduce 仅执行批处理并且缺乏实时处理功能,因此它开始出现。因此,引入了Apache Spark,因为它可以实时执行流处理,也可以处理批处理。 除了实 ...
分类:
其他好文 时间:
2021-04-06 15:01:09
阅读次数:
0
2.1 序列化概述 1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 2)为什么要序列化 一般来说,“活的”对象只生存在内存里,关机断电 ...
分类:
其他好文 时间:
2021-04-06 14:52:31
阅读次数:
0
学习过得技术 HDFS YARN MR HIVE HBASE SPARK SPARK(sparkCore、sparkSql、sparkStreaming) HDFS 数据库管理、 存磁盘 Ha模式(在zookeeper之上) 联邦机制(把大象装进冰箱) split切片 Hbase 列式数据库 半结构 ...
分类:
其他好文 时间:
2021-04-05 12:37:34
阅读次数:
0
1.1 MapReduce定义 MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析 应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。 1.2 Ma ...
分类:
其他好文 时间:
2021-04-05 12:32:51
阅读次数:
0
一、kmeans聚类 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import re pd.set_option('max_columns', 600) pd ...
分类:
其他好文 时间:
2021-04-05 12:19:16
阅读次数:
0
mvn install:install-file -DgroupId=com.hadoop.XXXXX -DartifactId=hadoop-XXXXX -Dversion=0.4XXXXX -Dpackaging=jar -Dfile=/hadoopXXXX.jar ...
分类:
编程语言 时间:
2021-04-05 12:04:49
阅读次数:
0
考的是某年 \(FJWC\) 的题。 \(T1\) 比较简单的构造题,但自己考试的时候犯了个 \(zz\) 错误,把边权搞错了,就只拿了 \(50\) 分。 \(T2\) 大数据结构题,一开始想打暴力的,但要分类讨论好多种情况,就没写。 \(T3\) 思维题,打死都想不出正解的那照片那种。 T1 直 ...
分类:
其他好文 时间:
2021-04-01 13:19:13
阅读次数:
0
一、filter,map,flatmap练习: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') lines.collect() 2.将一行一行的文本分割成单词 words words=lines.flatM ...
分类:
其他好文 时间:
2021-04-01 13:07:18
阅读次数:
0
1.1 定义 Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue) , 主要应用于大数据实时处理领域 1.2 消息队列 1.2.1 传统消息队列的应用场景 ? 使用消息队列的好处 1) 解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2) ...
分类:
其他好文 时间:
2021-03-30 13:07:59
阅读次数:
0