1 package com.bawei.stream 2 3 import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} 4 import org.apache.spark.streaming.{Seconds, ...
分类:
其他好文 时间:
2020-05-05 18:01:51
阅读次数:
55
本篇参考:https://developer.salesforce.com/blogs/2018/07/which-streaming-event-do-i-use.html https://trailhead.salesforce.com/content/learn/modules/platfor ...
分类:
其他好文 时间:
2020-05-03 00:46:44
阅读次数:
83
流计算概述 流数据是指在时间分布上和数量上无线的一系列动态数据集合。数据记录是流数据的最小组成单元。 流数据特征 数据快速持续到达,无穷无尽 数据来源众多,格式复杂 数据量大,不关心存储 注重数据的整体价值,不过分关注个别数据 数据顺序颠倒或者不完整 流计算 流数据被处理后,一部分进入数据库成为静态 ...
分类:
其他好文 时间:
2020-05-01 17:08:46
阅读次数:
96
DStream接收socket数据统计 安装并启动生产者 #在linux系统上安装nc工具,利用它向某个端口发送数据 yum -y install nc #执行发送数据命令 nc -lk port 执行streaming依赖 <dependency> <groupId>org.apache.spar ...
分类:
其他好文 时间:
2020-04-30 19:37:50
阅读次数:
83
spark批处理模式: receiver模式:接收数据流,负责数据的存储维护,缺点:数据维护复杂(可靠性,数据积压等),占用计算资源(core,memory被挤占) direct模式:数据源由三方组件完成,spark只负责数据拉取计算,充分利用资源计算 window计算: def windowApi ...
分类:
其他好文 时间:
2020-04-29 14:30:19
阅读次数:
68
yum install -y etcd 如果之前安装过etcd,停掉etcd服务并,清理持久化目录,默认目录在/var/lib/etcd/default.etcd。 停止方法:systemctl stop etcd 数据清理方法: mv /var/lib/etcd/default.etcd /var ...
分类:
其他好文 时间:
2020-04-27 13:46:16
阅读次数:
68
//清理格式不匹配的数据 //此代码可以实现自动滤除掉无法转化为double类型的数据 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.j ...
分类:
其他好文 时间:
2020-04-26 21:00:10
阅读次数:
120
//练习sparkstreaming监听socket端口 //手写wordcount java代码 package com.swust.streaming; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav ...
分类:
其他好文 时间:
2020-04-23 11:49:08
阅读次数:
59
1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的,然后spark启动jobq去处理那些消息 然而,默认情况下,这种方式会因为底层的失败丢失数据。 如果要启用高可靠机制,让数据零丢失,就必须启用spark st ...
分类:
其他好文 时间:
2020-04-20 11:59:44
阅读次数:
64
协议 流实时消息协议(RTMP),Apple HTTP Live Streaming(HLS)和基于HTTP的动态自适应流(DASH)视频格式。 nginx rtmp模块 Put the load_module directive in the top?level (“main”) context ...
分类:
其他好文 时间:
2020-04-14 22:16:14
阅读次数:
74