标签:最大 ali 高可用 update scl hdfs redis check list
1.实时插入mysql时遇到的问题,使用的updateStaeBykey有状态的算子 必须设置checkpoint 如果报错直接删掉checkpoint
在创建的时候自己保存偏移量即可 再次启动时读取正确偏移量就行了 管他checkpoint 无关的事了
实时插入时有个问题是怎么进行mysql的数据覆盖 掉一批次的值:
1.使用局部更新的sql :
insert into area_user_amt (date,country,provence,amt) values(‘${datekey}‘,‘${countrykey}‘,‘${provencekey}‘,‘${amt}‘) ON DUPLICATE KEY UPDATE `amt`= ‘${amt}‘
2.使用replace 相当于先删除在插入
replace into stream_offset(topic,partitions,groupid,brokerlist,offset)values (?,?,?,?,?)
2.使用redis 不使用叠加状态的updateStaeBykey ,进行完reduceBykey(list1,list2)=>(list.zip(list2)).map(_.1+_.2) reduceBykey的两个参(累计值,当前值)一直做zip操作,做完后
(10,1).zip(20,2)=》((10,20),(1,2))在做map对里面每一个进行相加就是累加值 (只是当前批次的)
使用redis的hincrby 值增加的方法实现 累加求和
.foreachPartition(iter=>{
//在各分区获取redis连接
val jedis=JedisUtil.getJedisClient()
iter.foreach(tp=>{
//B2019040114 ,成功量 ,总量
jedis.hincrBy("P-"+tp._1._1.substring(0,8),tp._1._2,tp._2(0).toLong)
//设置key的有效时间
jedis.expire(tp._1._1,60*60*24*7) }) jedis.close()
})
SparkStreaming在处理kafka中的数据时,存在一个kafka offset的管理问题:
但是checkpoint的最大的弊端在于,一旦你的流式程序代码或配置改变了,或者更新迭代新功能了,这个时候,你先停旧的sparkstreaming程序,然后新的程序打包编译后执行运行,会出现两种情况:
为什么会出现上面的两种情况?
标签:最大 ali 高可用 update scl hdfs redis check list
原文地址:https://www.cnblogs.com/hejunhong/p/10527589.html