码迷,mamicode.com
首页 > 其他好文 > 详细

数据保护平台如何为新一代应用,人工智能和数据科学提供动力

时间:2020-01-26 20:48:16      阅读:112      评论:0      收藏:0      [点我收藏+]

标签:搜索功能   业务   科学家   取数据   数据科学   第三方   时光   信息   如何   

我最坚信的信念之一是,通过有效地构建,管理和发展其数据供应链来学习如何充分利用其数据的公司将获得持久的竞争优势。现在拥有如此多的数据,公司必须将其数据视为其最有价值的资产之一。这些数据供应链必须像其他任何系统或分发网络一样平稳运行。

然而,数据供应链提出了独特的挑战。要使数据供应链无缝运行非常困难,因为它必须从许多来源收集数据,将其提炼成有用的形式,然后能够根据需要将特定的子集交付给业务。数据不是万能的,因此您的数据供应链必须像数据多样化一样灵活。

为了构建最佳的数据供应链,公司应识别其库存中已拥有的资产。这是他们经常忽略的仓库,因为几乎每家公司都有一个存储库,可悲的是,它没有充分利用作为业务洞察力的来源:备份。

备份不仅需要放在架子上,而且仅在其他数据丢失时才可以拉入。实际上,它们可以推动创新。怎么样?好了,现在所谓的数据保护的整个过程变得更加复杂。在本故事中,我们将以Commvault为例,说明数据保护系统如何创建一个集中而全面的数据存储库,该存储库不仅可以用作备份,还可以成为使用数据存储新方法的基础。创造价值。

换句话说,我们将探索现代数据保护平台如何帮助您构建和运行支持新类型的应用程序,人工智能和数据科学的数据供应链。

数据保护如何成为一个全面的数据平台

过去,数据保护全都与备份有关。我们都记得软盘,以及80年代后期的高科技电影如何无法避免涉及备份状态的戏剧性变化。但是对于大型企业而言,备份已成为一种重要的保险形式。整个备份系统作为最坏的情况设置存在,是一种将数据传输到安全位置然后在出现问题时进行恢复的方法。

但是我们需要扩展对备份的看法,以赶上当今的技术。在现代世界中,数据保护平台在以下方面已远远超越了传统备份。

创建元数据目录

今天,捕获了大量的元数据,因此公司对数据的来源和使用方式有了更多的了解。这些目录可以帮助公司:

  • 分析数据使用
  • 了解数据增长
  • 追踪数据
  • 观察和监视数据蔓延
  • 建立阈值并发出有关容量限制的警报
  • 使用REST API将数据添加到动态索引(例如,将GPS数据添加到资产等实体)

使用数据爬网

数据保护平台还可以帮助公司抓取数据并创建业务中任何人都可以使用的结果的索引,以查找和分类人员,产品,位置和其他重要信息,例如:

  • 实体识别和提取
  • 收集与特定分析或AI使用相关的数据
  • 识别合规所需的数据

在数据内建立更好的搜索功能

数据保护平台可以创建反向索引,以使其数据更易于搜索。Commvault的动态索引创建了这样的索引,以使搜索速度更快。

充当转换引擎

平台内的数据可帮助推动整个企业的创新,因为它的可访问性使用户从数据科学到开发都可以:

  • 使用数据屏蔽
  • 对云数据执行实时开发/测试
  • 在数据上使用适当的编辑技术,同时仍可以使用实时且相关的数据

作为工作流引擎运行

一旦平台完全投入运营,公司就可以使用可视化编码和简化方法创建工作流程,以自动化加快流程,包括标准工作流程和流程以及与票务系统等平台的第三方集成。

分析一段时间内的数据使用情况

最后,由于数据保护平台的性质,用户可以跨时间获取同一数据集的多个视点,以查看发生了什么。这样的时间分析提供了宝贵的见解。

这些平台和数据湖有什么共同点

当我们看一下像Commvault这样的数据保护平台提供的功能时,我们看到它具有人们一直在努力从数据湖项目中获取的许多属性,例如:

  • 所有重要数据都保存在具有公共元数据层的存储库中
  • 确保数据被索引和可搜索
  • 运行转换作业以分析和提取数据,以及使用工作流引擎管理此类作业的执行能力
  • 通过API访问数据,支持处理和检索

当然,数据保护平台缺少数据湖的一些关键方面,例如用于创建和运行高级分析的编程模型,以及创建新引擎(如SQL引擎和其他在Hadoop上运行的机器学习技术)的能力。

但是,当您将数据保护平台作为数据基础架构的一部分时,您会在数据供应链中获得极为强大的组件。这些平台可能无法执行所有操作,但是它们却可以执行很多操作,而且没有一个数据存储库可以实际为公司提供所需的一切。

使数据保护平台正常工作

现在,让我们想象一下如何通过数据保护平台使应用程序,人工智能和数据科学变得更加强大。这些平台提供了这些。

了解你所拥有的

您具有数据的全面视图和索引。您无需再猜测拥有什么和缺少什么了。例如,当您在应用程序中并想了解有关客户的所有信息时,或者在数据科学环境中并且需要有关数据的环境时,这可能会有所帮助。平台提供了有助于理解的元数据存储库。

获得对所有数据的访问权限

由于其在提供数据恢复方面的基础,因此数据保护平台拥有您的所有数据。一旦您了解了特定数据集中可能存在的有趣内容,该平台就可以使您直接访问数据本身,而不仅仅是元数据。这是一个巨大的优势,因为您可以访问很多本来无法访问的数据。这加快了结果的速度,因为应用程序,人工智能和数据科学家无需等待数据交付就可以了,因为它随时可用。

提取金块

数据保护平台突破了障碍。我们都知道,某些数据比其他数据更难寻找和挖掘价值。通过将所有数据整合到一个位置,这些装饰数据变得更易于管理。例如,如果要在数据中查找提到产品或客户的所有位置,则可以在平台上进行爬网并检索相关数据,然后将其用于分析,应用程序或AI。

时光倒流

如前所述,公司从数据保护平台中获得的时间分析非常宝贵。您可以查看数据如何随时间变化,监视关键趋势,记录和跟踪更改以及根据此信息执行分析,从而可以根据历史数据做出更好的决策。

执行元数据分析

同样的时间分析也可以用于您的元数据。公司可以回顾所有元数据,了解数据集之间的变化和关系,以及谁访问了数据以及何时才能更好地了解企业中最重要的数据。

备份计划绝不算什么

数据保护平台的伟大之处在于它是自动创建和更新的。公司仍然需要处理数据以将其提取并使用,但是使用这样的平台,您将可以从一个强大而强大的视图开始,一次查看企业中所有重要数据。

数据保护平台可立即访问大量历史数据,这些历史数据可以为您的数据供应链增加未开发的维度。我认为,有权访问数据保护平台的应用程序开发人员,人工智能专家和数据科学家将压垮那些无法访问该平台的人。

数据保护平台如何为新一代应用,人工智能和数据科学提供动力

标签:搜索功能   业务   科学家   取数据   数据科学   第三方   时光   信息   如何   

原文地址:https://www.cnblogs.com/drfans/p/12234629.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!