数据平台中有使用 Redis 来给线上提供低延时(20毫秒以内)的高并发读写请求,其中最大的Redis使用了阿里云的Redis集群(256G),存储的记录超过10亿,Key的有效期设置为15天,每天写入的记录大概5000万左右,QPS大概在6万左右。由于过期Key的产生速度大于Redis自动清理的速 ...
分类:
其他好文 时间:
2020-02-05 23:11:35
阅读次数:
102
今天完成了实验六 安装了Flume,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 2. 使用 Avro 数据 ...
分类:
其他好文 时间:
2020-02-05 23:06:48
阅读次数:
83
1.环境 CDH 5.16.1 Spark 2.3.0.cloudera4 2.核心概念 官网: https://spark.apache.org/docs/2.3.0/streaming programming guide.html GitHub: https://github.com/apach ...
分类:
其他好文 时间:
2020-02-02 23:57:50
阅读次数:
161
本篇我们将使用Java语言来实现Flink的单词统计。代码开发环境准备导入Flink 1.9 pom依赖 org.apache.flink flink-java 1.9.0 org.apache.flink flink-streaming-j... ...
分类:
编程语言 时间:
2020-01-31 13:58:49
阅读次数:
154
在spark streaming读取kafka的数据中,spark streaming提供了两个接口读取kafka中的数据,分别是KafkaUtils.createDstream,KafkaUtils.createDirectStream,前者会自动把offset更新到zk中,默认会丢数据,效率低, ...
分类:
其他好文 时间:
2020-01-31 01:00:37
阅读次数:
82
一、实验目的 (1)通过实验学习日志采集工具 Flume 的安装和使用方法; (2)掌握采用 Flume 作为 Spark Streaming 数据源的编程方法。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 Flume 版本:1.7.0 三、实验内容和要求 1.安 ...
分类:
其他好文 时间:
2020-01-27 23:56:31
阅读次数:
256
SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) ...
分类:
数据库 时间:
2020-01-26 19:06:08
阅读次数:
99
遇到cuda程序,开始理解学习cuda概念及使用 Cuda 有硬件概念 SP (streaming processor),SM(streaming multiprocessor) 有方便编程的软件概念thread, blocks, grid 各个概念的解释: SP:流处理器,最基本的处理单元,也称为 ...
分类:
其他好文 时间:
2020-01-26 13:10:26
阅读次数:
126
[TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 ...
分类:
其他好文 时间:
2020-01-24 22:24:29
阅读次数:
95
文件扩展名Content-Type(Mime-Type)文件扩展名Content-Type(Mime-Type) .*( 二进制流,不知道下载文件类型) application/octet-stream .tif image/tiff .001 application/x-001 .301 appl ...
分类:
Web程序 时间:
2020-01-20 14:27:11
阅读次数:
109