码迷,mamicode.com
首页 > 其他好文 > 详细

实时计算DStream下求平均值(reduceByKey or combineByKey)

时间:2018-03-21 21:14:16      阅读:724      评论:0      收藏:0      [点我收藏+]

标签:必须   需要   merge   左右   分析   bin   计算   stream   eva   

对NC市的卡口数据进行分析,大概所有卡口每15秒接入的有效数据在3000条左右,现在产品经理要求对这些数据进行拥堵分析,通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来,然后根据卡口数据中的车牌和经过时间找到之前的过车记录,取出时间差,即为该路段的一条行驶时长,根据路段编码求时长的平均值。

 我发现RDD的combineByKey只需要传入前三个参数,而DStream则必须传入完整的5个参数,第四个参数不知道怎么用,找遍了github和Spark官网也没有,晚点再去研究一下!

          def combineByKey[C](  

  1.       createCombiner: V => C,  
  2.       mergeValue: (C, V) => C,  
  3.       mergeCombiners: (C, C) => C,  
  4.       partitioner: Partitioner,  
  5.       mapSideCombine: Boolean = true)

只能用reduceByKey 代替了! 

未完待续~~~~~~~~~~~

实时计算DStream下求平均值(reduceByKey or combineByKey)

标签:必须   需要   merge   左右   分析   bin   计算   stream   eva   

原文地址:https://www.cnblogs.com/1023linlin/p/8619328.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!