大数据思维

时间：2016-08-05 14:00:58 阅读：255 评论：0 收藏：0 [点我收藏+]

标签：

大数据时代要转变的思维：

要分析所有数据，而不是少量的数据样本
要追求数据的纷繁复杂，而不是精确性
要关注事物的相关关系，而不是因果关系
至今为止，人们搜集数据的能力有限，因此采用的是“随机采样分析”。

例如，要想知道中国顾客都联想笔记本的满意度，不可能对所有买了联想笔记本的人做问卷调查。通常的做法是随机找1000个人，用这1000个人的满意度来代表所有人的。

为了使结果尽可能准确，我们会设计尽可能精确的问卷，并使样本足够随机。

这就是“小数据时代”的做法，在不可能搜集全部数据的情况下，随机采样分析在各领域取得了巨大的成功。

但是，随机采样有三个问题：
1. 依赖随机性，而随机性很难做到。例如，使用固定电话随机打给1000户人家，这样也是缺乏随机性的，因为没有考虑到年轻人都使用手机的情况。
2. 远看不错，一旦聚焦到某一点，就模糊了。例如，我们用1000个人来代表全国，这1000个人是随机从全国选取的。但是，如果用此结果来判断西藏的满意度，却是缺乏精确的。也就是说，分析结果不能适用于局部。
3. 采样的结果只能回答你事先设计好的问题，不能回答你突然意识到的问题。
在”大数据时代“，样本=总体

如今，我们已经有能力搜集到全面而完整的数据。大数据是建立在掌握所有数据、至少是尽可能多的数据的基础上的。

2. 追求混杂性，而非精确性

在“小数据”时代，最重要的就是减少测量的错误，因为收集的信息较少，所以必须保证记录尽可能精确，否则细微的错误会被放大。为了精确，科学家必须优化测量的工具。现代科学就是这么发展过来的，物理学家开尔文（温度的国际单位）说：“测量就是认知”。很多优秀的科学工作者必须要能准确收集和管理数据。

在“大数据”时代，使用所有数据变为可能，且通常是上万亿个数据，要保证每一个数据的精确性是不可想象的，混杂性不可避免。但是，当数据量足够大时，混乱不一定会带来不好的结果。并且，由于放松了容错的标准，所能搜集的数据多了起来，还可以利用这些数据来做更多的事。举一个例子：

要测一个葡萄园的温度，如果只有一个温度计，那必须保证这个测量仪精确且能一直工作。但是如果每100棵葡萄树就有一个测量仪，则虽然有些测量数据是错误的，但是所有数据合起来却能得到一个更准确的结果。

因此，“大数据"通常用概率说话，而不是板着”确凿无疑“的面孔。”大数据“时代要求我们重新审视精确性的优劣。由于数据量太大，我们不再期待精确经，也无法实现精确性。

在图书馆我们可以看到，所有的书都被分类，例如，要找一本C语言的书籍，必须先找到”工科“分类，然后再找到”计算机“分类，再根据编号（类似于803.53x）找到需要的书籍，这是传统的方法。如果图书馆的书少，可以这么检索，如果有1亿本呢？10亿本呢？网络上的数据可远非图书馆的藏书量可比，动则数十亿，如果使用清晰的分类，那么不仅分类的人会疯，查询的人也会疯。因此，现在互联网上广泛使用”标签“，通过标签来检索图片、视频、音乐等。当然，有时人们会错标标签，这让习惯精确性的人很痛苦，但是，接受”混乱“给我们带来了两个好处：
1. 由于拥有了远比”分类"数量多得多的标签，我们能够获得更多的内容。
2. 可以通过标签组合来过滤内容。
例如，如果我们要检索“徐长卿”。“徐长卿”至少有三种身份：是一种中草药，是命名草药的人的名字，是仙剑3的主人公之一。如果按照传统分类法，可能“徐长卿”会被分到“中草药”类里，这还取决于分类的人。那么查询的人就不会知道它还有另外两重身份，或者只想查“徐长卿"这个人的人根本就不会到”中草药“类里查询。但是，如果使用”标签“，那么输入”徐长卿“+”草药“，即可查到草药；输入”徐长卿“+”仙剑3“即可查到游戏的主人公。

因此，使用”标签“代替”分类“，虽然有很多不精确的数据，但是却得到了大量标签，使得检索更方便，得到的结果更好了。

3. 关注相关关系，而非因果关系

知道”是什么“就够了，没有必要知道”为什么“，要让数据自己”发声“。来看一个例子：

沃尔玛是世界上最大的零售商，掌握了大量的零售数据。通过分析，沃尔玛发现，每当季节性飓风来临之前，不仅手电筒销售量增加了，而且蛋挞的销量也增加了。因此，当季节性暴风来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，以方便顾客。

看到这里，一个马上有人问”为什么飓风一来，人们都要买蛋挞“？

你问”为什么“，说明你注重的是因果关系。而这个“因”，可能是极难分析、且复杂的，而且即便研究出来，意义真的很大吗？对沃尔玛来说，只要知道“飓风来了，快摆蛋挞，准备大赚一笔”就行了，这就是注重的相关关系。

飓风与蛋挞有关，OK，行了，还能赚钱，太好了。为什么？不管，反正有关。

这也是大数据时代需要转变的思维，即关注相关关系，而非因果关系。

通过探求”是什么“，而非”为什么“，能够帮助我们更好地理解世界。但是，由于因果关系在我们的思维中根深蒂固，而且有时会臆想出一些因果关系，反而带来了错误的认知。例如：

父母经常告诉孩子，天冷时不带帽子和手套就会感冒。然而，研究表明，感冒和穿戴之间没有直接的联系。在某餐馆吃饭后，晚上肚子疼，我们会想到原因是餐馆的食物有问题。实际上很可能是和某人握手，或饭前没有洗手的关系。

相关关系能给我们分析问题提供新的视角，我们不需要事事去探究为什么，并且，它使我们相信，不探究”为什么“也是合理的。

但是，并不是说因果关系就应该完全摒弃，而是要灵活地以相关关系的立场来思考问题。

本文总结自《大数据时代》，作者Viktor Mayer-Schonberger。

大数据思维

标签：

原文地址：http://www.cnblogs.com/leonchen024/p/5740898.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

大数据思维

2. 追求混杂性，而非精确性

3. 关注相关关系，而非因果关系