Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用。本教程是一本对storm的基础介绍手册,希望帮助所有愿意使用实时流处理框架的技术同仁。 一、实时流计算 互联网从诞生的第一时间起,对世界的最大的 ...
分类:
其他好文 时间:
2016-07-05 22:10:50
阅读次数:
176
Introducing Kafka Streams: Stream Processing Made Simple 这是Jay Kreps在三月写的一篇文章,用来介绍Kafka Streams。当时Kafka Streams还没有正式发布,所以具体的API和功能和0.10.0.0版(2016年6月发布 ...
分类:
其他好文 时间:
2016-07-04 08:49:37
阅读次数:
562
HDFS:分布式文件系统 MapReduce:分布式计算框架 Sqoop:数据库ETL工具 Flume:日志收集工具 Mahout:数据挖掘库 Hive:数据仓库 Pig:数据流处理 HBase:实时分布式数据库 Zookeeper:分布式协作服务 ...
分类:
其他好文 时间:
2016-07-01 20:14:23
阅读次数:
166
Spark StreamingSpark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming 构建强大的交互式应用程序,而不仅仅是用于分析数据。Spark Streami... ...
分类:
其他好文 时间:
2016-06-25 08:25:53
阅读次数:
270
摘要:
Java 流在处理上分为字符流和字节流。字符流处理的单元为 2 个字节的 Unicode
字符,分别操作字符、字符数组或字符串,而字节流处理单元为 1 个字节,操作字节和字节数组。
Java 内用 Unicode 编码存储字符,字符流处理类负责将外部的其他编码的字符流和 java 内 Unicode 字符流之间的转换。而类 InputStreamReader 和 Outpu...
分类:
编程语言 时间:
2016-06-24 15:16:56
阅读次数:
298
1、输入流、输出流 2、字节流、字符流 3、节点流、处理流 字节流:InputStream OutputStream 字节流:小数据读写;字符流:大文件读写; 处理流 ...
分类:
编程语言 时间:
2016-06-19 01:14:57
阅读次数:
242
本期内容:1.SparkStreaming中RDD为空处理2.StreamingContext程序停止方式SparkStreaming运用程序是根据我们设定的BatchDuration来产生RDD,产生的RDD存在partitons数据为空的情况,但是还是会执行foreachPartition,会获取计算资源,然后计算一下,这种情况就会浪费集群计算资..
分类:
其他好文 时间:
2016-06-14 16:16:58
阅读次数:
183
处理流 BufferReader BufferWriter BufferedInputStream BufferedOutputStream Converting between bytes and character InputStreamReader OutputStreamWriter Obj ...
分类:
编程语言 时间:
2016-06-12 18:15:50
阅读次数:
229
关于大数据的实时流处理,AWS提供了传统方案和完全host方案
传统方案是EC2上面部署flume (采集)、kafka(数据转存)、storam(流处理)完全host方案是Kinesis。使用Kinesis还是需要用户通过API来将手机、网站点击、IoT、传感器等各类数据源的数据接入,并允许用户编写Kinesis的Worker来处理...
分类:
其他好文 时间:
2016-06-12 02:57:31
阅读次数:
847
应该会有不少人觉得我标题打错了,是不是想讲SparkStreaming或者Kafka+SparkStreaming啊?实际上这不是笔误,Kafka Streams是Kafka 0.10提供的新能力,用于实时处理Kafka中的数据流,和现有的流处理技术如SparkStreaming,Storm,Flink还是有些区别的。
1 概况
Kafka Streams是一套处理分析Ka...
分类:
其他好文 时间:
2016-06-10 12:31:17
阅读次数:
2810