标签:exce 环境 ftp 分析 数据安全 仪表 理解 原因 相对
数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。
数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结构化数据,机器对机器,实时流动的日志。
数据湖使数据民主化,是存储组织所有数据以供以后处理的一种经济有效的方法。研究分析师可以专注于寻找数据中的意义模式,而不是数据本身。
不像分层的数据仓库,数据存储在文件和文件夹中,数据湖有一个扁平的架构。数据湖中的每个数据元素都有一个惟一的标识符,并用一组元数据信息进行标记。
构建数据湖的主要目的是为数据科学家提供一种未经提炼的数据视图。
使用数据湖的原因是:
图中显示了业务数据湖的体系结构。较低的级别表示大部分处于静止状态的数据,而较高的级别表示实时事务数据。这些数据在系统中流动,没有或只有很少的延迟。以下是数据湖架构中的重要层次:
下面是需要理解的数据湖关键概念,以便完全理解数据湖体系结构。
数据采集允许采集程序(前置机)从不同的数据源获取数据并加载到数据湖中。
数据采集支持:
数据存储应该是可伸缩的,提供经济有效的存储,并允许快速访问数据探索。它应该支持各种数据格式。
数据治理是管理组织中使用的数据的可用性、可用性、安全性和完整性的过程。
需要在数据湖的每一层实现安全性。它从存储、挖掘和消费开始。最基本的需要是停止未经授权用户的访问。它应该支持不同的工具来访问数据,并且易于导航GUI和仪表板。
认证、会计、授权和数据保护是数据湖安全的重要特征。
数据质量是数据湖体系结构的重要组成部分。数据用于确定业务价值。从质量差的数据中提取见解将导致质量差的见解。
在开始准备数据或分析之前,数据发现是另一个重要的阶段。在这个阶段,通过组织和解释数据湖中摄入的数据,使用标记技术来表达对数据的理解。
两个主要的数据审计任务是跟踪对关键数据集的更改。
数据审计有助于评估风险和遵从性。
这个组件处理数据的起源。它主要处理随着时间的推移它在哪里移动以及发生了什么。它简化了从起点到终点的数据分析过程中的错误纠正。
这是数据分析的开始阶段。在开始数据探索之前,识别正确的数据集是非常重要的。
所有给定的组件都需要协同工作,才能在数据湖构建中发挥重要作用,从而轻松地演化和探索环境。
数据湖成熟度阶段的定义不同于教科书。尽管症结依然存在。在成熟度之后,阶段定义是从外行人的角度进行的。
第一阶段:按比例处理和摄取数据
数据成熟度的第一个阶段包括改进转换和分析数据的能力。在这里,业务所有者需要根据他们的技能集找到工具,以获取更多数据并构建分析应用程序。
第二阶段:培养分析能力
这是第二个阶段,包括改进数据转换和分析的能力。在这个阶段,公司使用最适合他们技能的工具。他们开始获取更多的数据并构建应用程序。这里将同时使用企业数据仓库和数据湖的功能。
第三阶段:EDW和Data Lake协同工作
这一步包括让尽可能多的人掌握数据和分析。在这个阶段,数据湖和企业数据仓库开始在一个联合中工作。两者都在分析中扮演着各自的角色
第四阶段:湖中企业能力
在数据湖的这个成熟阶段,企业功能被添加到数据湖中。采用信息治理、信息生命周期管理功能和元数据管理。然而,很少有组织能够达到这个成熟度级别,但是这个数字在未来将会增加。
构建数据湖的挑战:
参数 | 数据湖 | 数据仓库 |
数据 | 数据湖存储一切。 | 数据仓库只关注业务流程。 |
处理 | 数据主要未经处理 | 高度加工数据。 |
数据类型 | 它可以是非结构化、半结构化和结构化的。 | 它主要是表格形式和结构。 |
任务 | 共享数据管理 | 数据检索优化 |
敏捷性 | 高度敏捷,根据需要进行配置和重新配置。 | 与数据湖相比,它的灵活性较差,配置固定。 |
用户 | 数据湖主要由数据科学家使用 | 业务专业人员广泛使用数据仓库 |
存储 | 数据湖是为低成本存储而设计的。 | 使用价格昂贵、响应速度快的存储 |
安全 | 控制度相对较小 | 控制数据安全性要求更高。 |
是否可以替代EDW | 数据湖可以作为EDW的数据源 | EDW的补充(不是替代) |
模式 | 读取模式(没有预定义的模式) | 写模式(预定义模式) |
数据处理 | 有助于快速消化新数据。 | 引入新内容非常耗时。 |
数据粒度 | 低细节或粒度级别的数据。 | 汇总的详细级别的数据。 |
工具 | 可以使用像Hadoop/ Map Reduce这样的开源/工具吗 | 主要商业工具。 |
下面是使用数据湖的一些主要好处:
使用数据湖的风险:
标签:exce 环境 ftp 分析 数据安全 仪表 理解 原因 相对
原文地址:https://www.cnblogs.com/SAPBI/p/12490769.html