本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止 由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率、资源的有效使用。 Spark Streaming会不断 ...
分类:
其他好文 时间:
2016-06-06 23:39:17
阅读次数:
248
storm集成kafka的应用,从kafka读取,写入kafka by 小闪电 0前言 storm的主要作用是进行流式的实时计算,对于一直产生的数据流处理是非常迅速的,然而大部分数据并不是均匀的数据流,而是时而多时而少。对于这种情况下进行批处理是不合适的,因此引入了kafka作为消息队列,与stor ...
分类:
其他好文 时间:
2016-06-06 16:34:52
阅读次数:
248
本期内容: 1、Spark Streaming中RDD的空处理 2、StreamingContext程序的停止 一、Spark Streaming中RDD的空处理 案例代码: Scala代码: package com.dt.spark.sparkstreamingimport org.apache. ...
分类:
其他好文 时间:
2016-06-02 17:54:11
阅读次数:
226
概述 互联网公司同质应用服务竞争日益激烈,业务部门亟需利用线上实时反馈数据辅助决策支持以提高服务水平。Alluxio(前Tachyon)作为一个以内存为中心的虚拟分布式存储系统,在大数据系统性能提升以及生态系统多组件整合的进程中扮演着重要角色。本文将介绍去哪儿网(Qunar)的一个基于Alluxio ...
分类:
其他好文 时间:
2016-05-31 10:35:18
阅读次数:
346
内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符的工具 sed 文本替换利器 awk 数据流处理工具 迭代文件中的行、单词和字符 内容目录: fin ...
分类:
系统相关 时间:
2016-05-28 19:09:57
阅读次数:
264
Mybatis 拦截器不做解释了,用过的基本都知道,这里用load data local主要是应对大批量数据的处理,提高性能,也支持事务回滚,且不影响其他的DML操作,当然这个操作不要涉及到当前所load的数据,其中在使用的时候一定要local , 这个命令使用是mysql规定的,否则不加则会认为是 ...
分类:
数据库 时间:
2016-05-27 11:03:43
阅读次数:
488
本期内容 1、ReceivedBlockTracker容错安全性 2、DStreamGraph和JobGenerator容错安全性 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以 ...
分类:
其他好文 时间:
2016-05-24 11:45:51
阅读次数:
151
本期内容: 1 RDD生成生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark St ...
分类:
其他好文 时间:
2016-05-22 14:00:31
阅读次数:
147
本期内容: 1 数据流生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark Stre ...
分类:
其他好文 时间:
2016-05-22 13:59:28
阅读次数:
132
本期内容: 1 Receiver生命周期 2 深度思考 一切不能进行实时流处理的数据都是无效的数据。在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。 Spark ...
分类:
其他好文 时间:
2016-05-22 13:59:20
阅读次数:
169