《Mining of Massive Datasets》笔记（一）

时间：2018-02-14 10:42:39 阅读：199 评论：0 收藏：0 [点我收藏+]

标签：数据 datasets data ima 适用于 body 完全算法组成

数据挖掘基本概念

数据挖掘定义

最广为接受得到定义是，数据挖掘是数据“模型”的发现过程。而“模型”却可以有多种含义。

1）统计建模

统计学家认为数据挖掘就是统计模型的构建过程，而这个统计模型指的就是可见数据所遵从的总体分布。

2）机器学习

有些人将数据挖掘看成是机器学习的同义词。毫无疑问，一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法，比如贝叶斯网络、支持向量机、决策树、隐马尔科夫模型等。

某些场景下上述的数据利用方式是合理的。机器学习擅长的典型场景是人们对数据中的寻找目标几乎一无所知。比如，我们并不清楚到底是影片的什么因素导致某些观众喜欢或者厌恶该影片。因此，在Netflix竞赛要求设计一个算法来预测观众对影片的评分时，基于已有评分样本的机器学习算法获得了巨大成功

另一方面，当挖掘的目标能够更直接地描述时，机器学习并不成功。一个有趣的例子是，WhizBang实验室曾试图使用机器学习方法在Web上定位人们的简历。但是不管使用什么机器学习算法，最后的效果都比不过人工设计的直接通过典型关键词和短语来查找简历的算法。

3）建模的计算方法

近年来，计算机科学家已将数据挖掘看成一个算法问题。这种情况下，数据模型仅仅就是复杂查询的答案。

数据建模有很多不同的方法。前面我们已经提到，数据可以通过其生成所可能遵从的统计过程构建来建模。而其他的大部分数据建模方法可以描述为下列两种做法之一：

（1）对数据进行简洁的近似汇总描述

（2）从数据中抽取出最突出的特征来代替数据并将剩余内容忽略。

4）数据汇总

一种最有趣的数据汇总形式是pageRank..

另一种重要的数据汇总形式是聚类。

5）特征抽取

典型的基于特征的模型会从数据中寻找某个现象的最极端样例，并使用这些样例来表示数据。熟悉机器学习的一个分支——贝叶斯网络的读者应该会知道，在贝叶斯网络中，可以利用寻找对象间的最强统计依赖来表示所有统计关联，从而表示出对象之间的复杂关系。我们将要介绍大规模数据集下的一些重要的特征抽取类型，它们包括以下两种。

1）频繁项集：该模型适用于多个小规模项集组成的数据。

2）相似项：很多时候，数据往往看上去相当于一系列集合，我们的目标是寻找那些共同元素比例较高的集合对