1.大数据的由来
之所以会出现大数据,主要是由于我们进入了信息时代,随着进入了信息时代,各种信息激增,包括金融,交通,电商,网上的各种信息,这些信息都是各有用处的,有待挖掘;像我自己是处于金融行业的技术人员,我们建立了一个小型的数仓平台,每天都会从上交所和深交所中获取各种交易性的数据,这些信息是有待挖掘的,里面包含了各种行业的投资情况等一系列信息;有待于进行分析;
2.大数据的特点
大数据有以下5个特点,分别是:
(1)volumn:大数据的采集,计算和存储量都是很庞大的,例如我们的小型数仓,光是一张表的数据可能都超过10亿,这种在mysql关系型数据库中,可能一查询就会卡死,更别说利用这些数据进行分析和计算了;
(2)variety:大数据的数据种类会存在多样化的情况;中间包括结构化数据,半结构化数据和非结构化数据这几种,还是以我们的数仓为例,我们一般都是结构化数据,即每天从上游数据库中同步数据到数仓平台来;但是我们也有一些非结构化的数据要进入数仓的平台中,如爬虫数据,爬虫数据是从网页上进行爬取的,属于非结构化的数据;另外,从文章当中进行命名实体抽取则是完全的非结构化的数据,需要进行人工只能的神经网络提取之后才能使用;
(3)Value:由于数据量过大,数据的价值密度则比较低,如在网页上爬虫获取的数据,这部分数据要在数仓平台上进行过详细的数据分析之后,才能获取想要的信息,这些数据的数据量则是非常大的,可能需要对上亿的数据进行分析之后,才可能提取出想要的数据;
(4)Velocity:大数据的数据增长速度是非常快的,随着进入物联网的时代,每天的数据量的增长速度会越来越快;
(5)Veracity:数据的准确性和可信赖程度;
3.OLAP和OLTP
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
OLTP 系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;
OLAP 系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。
我们这边的大数据主要就是OLAP型的,主要是针对于数据分析的,可能一个数据指标出现的时间比较长;
4.数仓的架构
根据自己所使用过的数仓,大体的架构如下:
首先将数据从上游同步到大数据的数据湖当中,这部分数据包括结构化数据,半结构化数据和非结构化数据这三种,目前来说,主要还是结构化的数据,对于半结构化和非机构化的数据主要还是在上游处理好之后,才同步过来,还是一种结构化的数据;数据在入数据湖之后,需要对同类型的数据进行整合,即P层整合,如用户信息,将不同系统的用户整合到一起,供后面方便使用;之后就是仓内集市了,当然也可以是仓外集市;一般采用的是仓内集市,这样数据利用比较方便,直接可以使用P层的数据;仓内集市最后按照自己的需求,做出相应的数据指标;在仓内集市将数据处理完成之后,也会将数据同步到下游的关系型数据库中,供下游系统使用;与此同时,对于不变化的数据,可以将数据同步到Elasticsearch当中,供下游进行查询使用等;
原文地址:https://www.cnblogs.com/jumin/p/13547010.html