Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数表示的复杂算法进行处理map,例如reduce,join和window。最后,处理后 ...
分类:
编程语言 时间:
2018-08-28 17:53:06
阅读次数:
207
spark是一个用于大规模数据处理的统一计算引擎。适用于各种各样原先需要多种不同的分布式平台处理的场景,包括批处理、迭代计算、交互式查询、流处理。通过统一的框架将各种处理流程整合到一起。本文主要讲解spark特性、spark生态栈、spark用户及用途、spark简史。
分类:
其他好文 时间:
2018-08-26 01:19:47
阅读次数:
164
一、 Spark Streaming 构建在Spark core API之上,具备可伸缩,高吞吐,可容错的流处理模块。 1)支持多种数据源,如Kafka,Flume,Socket,文件等; Basic sources: Sources directly available in the Stream ...
分类:
其他好文 时间:
2018-08-25 14:13:02
阅读次数:
188
前言 本文为java.util.stream 包文档的译文 极其个别部分可能为了更好理解,陈述略有改动,与原文几乎一致 原文可参考在线API文档 https://docs.oracle.com/javase/8/docs/api/ Package java.util.stream Descripti ...
分类:
编程语言 时间:
2018-08-19 15:45:48
阅读次数:
219
一、基础知识 流是一种可以产生或使用信息的抽象。 Java定义了两种类型的流: 字节流:处理字节的输入和输出,例如读写二进制数据。 字符流:处理字符的输入和输出。 在底层所有I/O仍然是面向字节的,字符流知识为处理字符提供更高效的方法。 二、字节流 //文件读写流 import java.io.Fi ...
分类:
编程语言 时间:
2018-08-12 18:47:08
阅读次数:
145
一、什么是Serverless 定义:Serverless是一种无服务器的架构,区别于传统的Baas,SAAS,作为FAAS(函数即服务)而存在,函数由事件驱动触发并按需调用。 按需调用:区别于传统的7x24小时运行的服务,Serverless只会在特定事件触发时运行,并按需收费。 无需关注基础设施 ...
分类:
其他好文 时间:
2018-08-07 23:57:59
阅读次数:
317
Hive Hive是一个构建在Hadoop上的数据仓库框架,设计目的是让精通SQL的分析师能够对存放在HDFS上的大规模数据集执行查询操作。 Hive把数据组织为表,通过这种方式为存储在HDFS的数据赋予结构,并将表模式等元数据存储在名为Merastore的数据库中。基于这种类似关系的数据模型,Hive把SQL查询转换为一系列在Hadoop集群上
分类:
其他好文 时间:
2018-08-01 11:39:28
阅读次数:
132
? IO流 对于流的描述,流是一种抽象的描述。 流的分类: 1、输入流(Input) 2、输出流(Output) 按类型分: 1、字节流(InputStream/OutputStream) 2、字符流(Reader/Writer) 按照功能分: 1、节点流(低级流) 2、处理流(高级流) 字节流到字 ...
分类:
其他好文 时间:
2018-07-30 21:44:27
阅读次数:
209
这个框架是在开始学习React的时候写的,当时主要是觉得Redux的事件流过于复杂,以及考虑到在多层的props的传递中的代码复杂度的问题,尝试着完成了这样一个框架,通过维护一个全局的数据管理器管理storage来部分替代Redux的使用,将storage中的数据直接映射到组件的state中。具体代 ...
分类:
其他好文 时间:
2018-07-18 17:15:31
阅读次数:
158
呵呵,上一节不知道怎么的就开始扯起了电视的发展,不过确实是勾起了我童年的回忆,这节我们正式进入正题,先说说直播。直播这个词看到以后,让我们想到的是什么?其实感觉也没什么,因为已经很普及,是否更多的是想到了直播带来的利益链?“某公司财务职员私自挪用公司资产打赏某主播金额高达数百万!!!”是啊,好像更多的是这样的字眼,那这个平台是如何实现的呢?为什么能有这么大的能量?直播包括流采集,流处理,编码,推流
分类:
其他好文 时间:
2018-07-16 17:18:03
阅读次数:
236