标签:数据结构类型 信噪比 方差 数据科学 十分 一个 大数据分析 融合 核心
大数据的出现给许多企业对寻找未来的方向带来了巨大的帮助,许多企业开始关注大数据,现在很多人开始关注大数据,大数据可以给每个人带来帮助,但你知道大数据的特点和功能吗?大数据的特性都有哪些
一、体量(Volume)
大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。一般来说,凡是满足大数据的几个V的条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapReduce)得以迅速崛起。
二、高速(Velocity)
大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的(考虑到有限的网络存储空间,单单是高速就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要(如平均值和方差)。这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。
三、多样(Variety)
在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。结构化数据多被发现在传统数据库中,数据的类型被预定义在定长的列字段中。半结构化数据有一些结构特征,但不总是保持一致(举例来说,看一看JSON文件),使得这种类型难以处理。更富于挑战的是非结构化数据(例如纯文本文件)毫无结构特征可言。在大数据中,更常见的是半结构化数据,而且这些数据源的数据格式还各不相同。
在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。
四、准确(Veracity)
这是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据。
五、精确性与信噪比(signal-to-noiseratio)
在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化。如何增加可用数据的精确性是大数据的主要挑战。注意,即使有些数据拥有这4种属性中的一种或多种,也不能被归类为大数据。大数据拥有以上全部4种特性。大数据是一个重要课题,因为它并不容易处理,即使是对于一台超级计算机,也很难独自有效地展开分析。
大数据的特性优势有哪些.中琛魔方大数据分析平台表示大数据的处理和分析正在成为新一代信息技术融合和应用的节点,大数据是信息产业持续快速增长的新引擎,大数据利用将成为提高核心竞争力的关键因素。
标签:数据结构类型 信噪比 方差 数据科学 十分 一个 大数据分析 融合 核心
原文地址:https://blog.51cto.com/14615175/2504625