数据挖掘的含义、应用、常见任务等知识点汇总

时间：2015-06-07 09:32:48 阅读：131 评论：0 收藏：0 [点我收藏+]

数据挖掘这一术语所指的范围非常广泛，从即席式查询、基于规则的通知或透视图分析，到政府的监听计划。在本书中，数据挖掘是一个过程，使用自动方法分析数据，以便找到隐藏的模式。提到这种数据挖掘时，常常使用其他术语，例如计算机学习，数据库中的知识发现或者预测分析。

数据挖掘的主要目的是从已有数据中提炼知识，这就提高了已有数据的内在价值，并且使数据成为有用的东西。

数据挖掘将算法（比如决策树，聚类，关联，时序算法等）应用到某一数据集，然后分析该数据集的内容。这种分析能挖掘出模式，这些模式含有有价值的信息。根据所使用的基本算法，这些模式可以是决策树，规则，聚类或者简单的数学公式。在模式中发现的信息可用作市场策略的指导，它对于预测来说非常重要。

数据挖掘解决的商业问题

推荐信息的生成

异常检测

客户流失分析

风险管理

客服细分

广告定位

预测

数据挖掘的任务

分类：

把多个事例分成多个类别的行为。每个事例包含一组属性，其中有一个属性是类别属性。分类任务要求找到一个模型，该模型将类别属性定义为输入属性的函数。分类模型将使用事例的其他属性（输入属性）来确定类别的模式（输出属性）。有目标的数据挖掘算法称为有监督的算法。

典型的分类算法有决策树算法，神经网络算法和贝叶斯算法

聚类：

在同一个聚类中的事例或多或少有相似的属性值。

聚类分析是一个无监督的数据挖掘任务，没有一个属性用于指导训练过程，因此，所有的输入属性都平等对待。大多数聚类算法通过多次迭代来构建模型，当模型收敛时算法停止，也就是说，当细分的边界变得稳定时算法停止。

关联：

关联也叫购物篮分析。关联通常用于确定常见的物品集和规则集，以达到交叉销售的目的。

关联任务有两个目标：找出经常一起出现的那些物品，并从中确定关联规则。

回归：

回归任务类似于分类任务，但它不是查找描述类的模式，它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子，其结果是一个函数，可以根据输入的值来确定输出。回归使用的最流行的技术是线性回归和逻辑回归。

预测：

预测技术采用数列作为输入，表示一系列时间值，然后运用各种能处理数据周期性分析，趋势分析，和噪声分析的计算机学习和统计技术来估算这些未来的值。

序列分析：

序列分析用来发现一系列事件中的模式，这一系列事件称为序列。序列数据和时间序列数据的相似之处在于它们都包含连续的观察值，这些观察值是有序的。它们的区别是时间序列包含数值型数据，而序列包含离散的状态。

偏差分析：

偏差分析是为了找出一些特殊的事例，这些事例的行为与其他事例有明显的不同。

数据挖掘项目的生命周期

问题形成

数据收集

数据的清理和转换：数值转换，分组，聚集，缺失值处理，删除孤立点

模型构建（选择算法）

模型评估

报告和预测

应用集成

模型管理

参考文献：

数据挖掘原理与应用----SQL server 2008数据库

数据挖掘的含义、应用、常见任务等知识点汇总

标签：数据挖掘机器学习

原文地址：http://blog.csdn.net/xinxing__8185/article/details/46397709

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行