标签:大数据概述
大数据目前没有一个严格的定义,但是我们可以举出很多具体的例子!例如:互联网上的网页数据、社交网站上的用户交互数据(如新浪微博)、物联网中产生的活动数据(如智能家居)、电话网络中的话单数据(如移动语音详单)等等都是大数据的具体表现。
我们现在常说大数据,到底有多大呢?先看一组公式:
1024GB = 1TB;1024TB = 1PB;1024PB=1EB;1024EB=1ZB;1024ZB=1YB。
在淘宝上,每天新增的数据量大约有50TB,1年累计下来大约18PB。
与淘宝相对地,自人类开始记录历史以来,到现在为止全人类全部的印刷书本文字加起来大约50PB。
也就是说,仅淘宝3年的新增数据,就超过了全人类全部书本的数据量!
所以,大数据的第一个特征就是大容量!大到什么地步呢?远超于以前人类文明史全部书本的总数据量!
而且,不仅仅是容量大,而且增长速度也是越来越快的!
大数据并不仅仅强调数据量的大小,还关系到数据类型的变化!
数据类型简单的可以分为结构化数据和非结构化数据。
在大数据出现的初期,数据基本都是以结构化的形式存储在数据库
但是随着大数据的蓬勃发展,目前已经超过80%的数据是以非结构的形式存在的!并且非结构化的数据增长速度远远超过结构化数据
所以,大数据的高速发展让数据从结构化形式快速地转向了非结构化,非结构化数据已经是占统治地位的数据。
正是非结构化数据的迅速增长,促进了现代数据处理技术从算法到架构的全方位变革,也就是下面即将提到的MapReduce计算模式。
在传统的数据分析或商业智能中,数据处理的工作重点更对地是放在对历史数据的分析和挖掘。例如,客户关系管理(BI),企业资源规划(ERP),几乎所有分析报表的产生都是以过去若干周或若干月的数据为基准产生,然后提交给企业管理者,以便他们做出决策。
但是在大数据时代,企业或组织必须具有实时分析所拥有的最新数据,并具备挖掘出有价值的信息的能力,才能产生对决策者有意义的分析结果。例如,搜索引擎如百度需要将几分钟前上线的新闻快速归并到检索索引中。因为,如果一个搜索引擎不能及时建立搜索结果,用户必将流失到时效性更高的其他搜索引擎中。电子商务网站如京东必须在当天分析用户的购买行为并预测第二天的货物短缺状况,如果不能达到这样的处理速度,第二天的缺货状况必将引来不可估量的用户流失和收入损失。地质管理机构必须在地震发生后的几分钟内发布海啸或其他灾害的预警,如果做不到及时发布,后果非常严重!
标签:大数据概述
原文地址:http://blog.csdn.net/itheima_1llt/article/details/45340709