标签:独立 架构 重做 生态圈 现在 文件 hdf 管理 本地
我们在前面的文章中提到了BI系统,从文章中我们不难发现BI系统处理数据的时候都是很有效的,但是当数据量过大的时候,我们系统的性能就会弱了很多。当然了,如果我们处理的数据在TB或者TB以上的数据量的时候,这个系统根本就不能够正常运行,所以,我们就需要解决这个问题。
大家都知道数据库的规则是有很多的,数据库的规则,能够解决数据冗余的问题,是为了保障数据的一致性。但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说,数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
在一系列的问题下,大数据分析平台逐渐表现出优异性,生态圈也不断变大,但是从根本上解决了传统数据仓库瓶颈的问题,但是也带来一系列的新问题:就是从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。而大数据下的分布式存储强调数据的只读性质,所以存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈。我们可以通过几种方式解决这个问题,比如分布式计算、分布式存储、检索和存储的结合。
现在就给大家说一下分布式计算。分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,这样就能够来减少数据的传输。
然后就给大家说一下检索和存储的结合。在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快、读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。
最后分布式存储。所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本、分片以及管理等操作,分布式存储主要优化的动作都在这一块。
想必大家看到了这篇文章的具体内容了吧,大家在进行数据分析的时候还是需要做好知识的储存,希望这篇文章能够给大家带来帮助,如果您喜欢我们的文章,那么快快关注我们吧。
标签:独立 架构 重做 生态圈 现在 文件 hdf 管理 本地
原文地址:https://www.cnblogs.com/CDA-JG/p/10177921.html