本周PSP 会议分工 任务(数据分析) 何为数据分析? 答 1.按照数据分析的实时性,分为实时数据分析和离线数据分析 2.按照大数据的数据量,分为内存及别,BI级别,海量级别三种 ——————摘自人月神话的《大数据分析的分类》 本周总结: 通过这周软件工程课程的学习 ,让我认识到了大数据的实用性,以 ...
分类:
其他好文 时间:
2016-12-10 00:25:16
阅读次数:
174
一、ELK简介1、组成ELK是Elasticsearch、Logstash、Kibana三个开源软件的组合。在实时数据检索和分析场合,三者通常是配合使用,而且又都先后归于 Elastic.co 公司名下,故有此简称。Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发 ...
分类:
其他好文 时间:
2016-12-05 19:23:01
阅读次数:
229
为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念。 1、离散流(Discretized Stream,DStream):这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对 ...
分类:
其他好文 时间:
2016-12-04 14:01:10
阅读次数:
216
Durid是在2013年底开源出来的,当前最新版本0.9.2, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。对比Druid与其他解决方案,Kylin对数据按照分区每天构建前一天的cube数据提供给用户查询,用户查询的是历史数据。而Druid不断 ...
分类:
其他好文 时间:
2016-11-22 07:44:38
阅读次数:
298
1.HADOOP与STORM比较数据来源:HADOOP处理的是HDFS上TB级别的数据(历史数据),STORM是处理的是实时新增的某一笔数据(实时数据),处理一些简单的业务逻辑;处理过程:HADOOP是分MAP阶段到REDUCE阶段,STORM是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可 ...
分类:
其他好文 时间:
2016-11-16 13:47:54
阅读次数:
324
为了和qq空间同步,也写的第四天,前面几天明天会发布,本来打算把每天学的东西记录下来,通过朋友给的建议要发的话稍微系统化下,从大数据需要的linux基础,到离线数据分析包括hadoop、hive、flume、hbase等,再到实时数据分析包括storm、kafka、redias等,最后的内存计算部分 ...
分类:
系统相关 时间:
2016-11-10 03:13:34
阅读次数:
347
1. 实时流协议RTSP RTSP[3]协议以客户服务器方式工作,它是一个多媒体播放控制协议,用来使用户在播放从因特网下载的实时数据时能够进行控制,如:暂停/继续、后退、前进等。因此 RTSP 又称为“因特网录像机遥控协议”。 1.1. RTSP协议简介 要实现 RTSP 的控制功能,不仅要有协议, ...
分类:
其他好文 时间:
2016-11-05 03:00:03
阅读次数:
285
由于每秒数据吞吐量巨大,需要将实时数据存到event hubs,再由event hubs定时定量保存到document DB。 event hubs的介绍详见微软官页:https://azure.microsoft.com/zh-tw/services/event-hubs/ 事件中樞 從網站、應用 ...
分类:
其他好文 时间:
2016-10-20 11:56:38
阅读次数:
291
现在大型的电子商务系统,在数据库层面大都采用读写分离技术,就是一个Master数据库,多个Slave数据库。Master库负责数据更新和实时数据查询,Slave库当然负责非实时数据查询。因为在实际的应用中,数据库都是读多写少(读取数据的频率高,更新数据的频率相对较少),而读取数据通常耗时比较长,占用 ...
分类:
数据库 时间:
2016-10-14 07:18:06
阅读次数:
195
对绝大多数实时数据流系统来说,可用性、准确性、实时性,三个指标考虑的是优先级依次降低,实现的代价也是依次增长。在不同的业务场景中,对“可靠”的定义也有所不同。可能有些系统数据丢失1%对业务的影响不大,...
分类:
其他好文 时间:
2016-10-12 20:05:10
阅读次数:
188