此次技术沙龙是由百度的高级架构师陈天健和豆瓣首席科学家王守崑为主讲,大主题是推荐系统。 陈天健的主要话题是百度推荐引擎计算平台架构中的流式计算架构。中间有一种因为几个短信有点错过,等视频出来再听一遍,这个笔记基本没啥整理,主要是个备档,感兴趣的同学可以直接去InfoQ看视频。下面把记的笔记抄上来: ...
分类:
其他好文 时间:
2017-07-02 11:41:16
阅读次数:
192
?? Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架。什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流。比如一般金融系统一直不断的执行,金融交易、用户全部行为都记录进日志里,日志分析出站点运维、猎户信息。海量 ...
分类:
其他好文 时间:
2017-07-01 12:47:15
阅读次数:
200
推荐慕课网视频:http://www.imooc.com/video/10055 Storm的起源。 Storm是开源的、分布式、流式计算系统 什么是分布式呢?就是将一个任务拆解给多个计算机去执行,让许多机器共通完成同一个任务, 把这个多机的细节给屏蔽,对外提供同一个接口、同一个服务,这样的系统就是 ...
分类:
其他好文 时间:
2017-06-15 23:40:03
阅读次数:
325
Kafka介绍 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 KAFKA + STORM +REDIS 1、Apache Kafka是一个开源消息系统,用Scala写成。 2、Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性, ...
分类:
其他好文 时间:
2017-05-26 00:42:44
阅读次数:
197
离线计算 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、azkaban/oozie任务调度 流式计算 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表 ...
分类:
其他好文 时间:
2017-05-15 23:52:38
阅读次数:
465
转自:http://www.cnblogs.com/yurunmiao/p/5195754.html 目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDF ...
分类:
Web程序 时间:
2017-05-14 15:26:39
阅读次数:
365
原文:http://highlyscalable.wordpress.com/2013/08/20/in-stream-big-data-processing/ 作者:Ilya Katsov 相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足。非常多应用都对实时查询和流式处理产生了迫切 ...
分类:
其他好文 时间:
2017-05-13 20:11:48
阅读次数:
456
分布式系统实践 1. 一文读懂大数据计算框架与平台 http://dwz.cn/5SgDC5 摘要: 这篇文章从批处理模型, 流式计算模型和交互式分析模型三个角度总结了开源大数据框架的特点, 对于大家了解大数据平台的全貌有一定的帮助. 2. 美团的大数据平台架构实践 http://dwz.cn/5T ...
分类:
其他好文 时间:
2017-05-05 21:51:02
阅读次数:
182
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用, 还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码。 ...
分类:
其他好文 时间:
2017-04-26 01:19:45
阅读次数:
145
2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展。一般来讲,根据业务需求,数据的处理可以分为离... ...
分类:
其他好文 时间:
2017-04-18 19:15:35
阅读次数:
210