精华 : 在执行引擎这一层,流处理系统与批处理系统最大不同在于节点间的数据传输方式。对于一个流处理系统,其节点间数据传输的标准模型是:当一条数据被处理完成后,序列化到缓存中,然后立刻通过网络传输到下一个节点,由下一个节点继续处理。而对于一个批处理系统,其节点间数据传输的标准模型是:当一条数据被处理完 ...
分类:
其他好文 时间:
2018-12-27 20:28:36
阅读次数:
166
Engine:引擎,处理整个系统的数据流处理、触发事务,是整个框架的核心。 Item:项目,定义爬虫结果的数据结构,爬去的数据被赋值为该item对象。 Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求时将请求提供给引擎。 Downloader:下载器,下载网页内容,并 ...
分类:
其他好文 时间:
2018-12-25 20:19:34
阅读次数:
126
本文介绍Linux安装Kafka。 1.Kafka简介 Kafka也是开源与Apache开源基金会的项目,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统。 在百度百科是这样介绍的: Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写 ...
分类:
系统相关 时间:
2018-12-24 02:51:18
阅读次数:
209
一、Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操 ...
分类:
其他好文 时间:
2018-12-22 13:07:27
阅读次数:
235
首先我们从宏观的视角来窥视下大数据技术框架: 图1 大数据技术框架 从图1可以看出,数据源-数据收集-数据存储-资源管理,这是我们进行数据分析和处理的基本;图中的计算框架包括批处理、交互式分析和流处理: 批处理计算:对时间没有严格要求,吞吐率要高 交互式计算:支持类SQL语言,快速进行数据分析 流式 ...
分类:
其他好文 时间:
2018-12-18 19:51:30
阅读次数:
218
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能 Flink提供了诸多更高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作 ...
分类:
其他好文 时间:
2018-12-09 16:31:13
阅读次数:
145
直接下载 解压, 运行 ./bin/start-cluster.sh 几个概念: 批处理: 大数据量,不要求实时。 输入源是有界的 流处理:实时要求高,通常在毫秒级, 数据量比较小,但是输入源是无界的 idea中调试flink程序 ...
分类:
其他好文 时间:
2018-12-09 01:06:11
阅读次数:
179
flink介绍:为世界上一些最苛刻的流处理应用程序提供支持 是一个框架,也是一个计算引擎。对无界和有界数据流进行有状态计算。设计为在所有常见集群中,以内存速度和任何规模计算。 任何类型的数据都是事件流,信用卡交易,传感器测量,机器日志或网站或移动应用上的用户交互。这些数据都是流。 1.无界流有一个开 ...
分类:
其他好文 时间:
2018-12-08 21:07:35
阅读次数:
229
Flink视频教程_基于Flink流处理的动态实时电商实时分析系统课程分享地址链接:https://pan.baidu.com/s/1cX7O-45y6yUPT4B-ACfliA密码:jqmk在开始学习前给大家说下什么是Flink?1.Flink是一个针对流数据和批数据的分布式处理引擎,主要用Java代码实现。2.ApacheFlink作为Apache的顶级项目,Flink集众多优点于一身,包括快
分类:
其他好文 时间:
2018-12-07 13:01:22
阅读次数:
238
一.与CUDA相关的几个概念:thread,block,grid,warp,sp,sm。 sp: 最基本的处理单元,streaming processor 最后具体的指令和任务都是在sp上处理的。GPU进行并行计算,也就是很多个sp同时做处理 sm:多个sp加上其他的一些资源组成一个sm, stre ...
分类:
编程语言 时间:
2018-12-01 16:03:55
阅读次数:
291