实时计算DStream下求平均值（reduceByKey or combineByKey）

时间：2018-03-21 21:14:16 阅读：724 评论：0 收藏：0 [点我收藏+]

对NC市的卡口数据进行分析，大概所有卡口每15秒接入的有效数据在3000条左右，现在产品经理要求对这些数据进行拥堵分析，通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来，然后根据卡口数据中的车牌和经过时间找到之前的过车记录，取出时间差，即为该路段的一条行驶时长，根据路段编码求时长的平均值。

我发现RDD的combineByKey只需要传入前三个参数，而DStream则必须传入完整的5个参数，第四个参数不知道怎么用，找遍了github和Spark官网也没有，晚点再去研究一下！

def combineByKey[C](

createCombiner: V => C,
mergeValue: (C, V) => C,
mergeCombiners: (C, C) => C,
partitioner: Partitioner,
mapSideCombine: Boolean = true）

只能用reduceByKey 代替了！

未完待续~~~~~~~~~~~

实时计算DStream下求平均值（reduceByKey or combineByKey）

标签：必须需要 merge 左右分析 bin 计算 stream eva

原文地址：https://www.cnblogs.com/1023linlin/p/8619328.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行