数据挖掘的含义、应用、常见任务等知识点汇总
数据挖掘这一术语所指的范围非常广泛,从即席式查询、基于规则的通知或透视图分析,到政府的监听计划。在本书中,数据挖掘是一个过程,使用自动方法分析数据,以便找到隐藏的模式。提到这种数据挖掘时,常常使用其他术语,例如计算机学习,数据库中的知识发现或者预测分析。
数据挖掘的主要目的是从已有数据中提炼知识,这就提高了已有数据的内在价值,并且使数据成为有用的东西。
数据挖掘将算法(比如决策树,聚类,关联,时序算法等)应用到某一数据集,然后分析该数据集的内容。这种分析能挖掘出模式,这些模式含有有价值的信息。根据所使用的基本算法,这些模式可以是决策树,规则,聚类或者简单的数学公式。在模式中发现的信息可用作市场策略的指导,它对于预测来说非常重要。
数据挖掘解决的商业问题
推荐信息的生成
异常检测
客户流失分析
风险管理
客服细分
广告定位
预测
数据挖掘的任务
分类:
把多个事例分成多个类别的行为。每个事例包含一组属性,其中有一个属性是类别属性。分类任务要求找到一个模型,该模型将类别属性定义为输入属性的函数。分类模型将使用事例的其他属性(输入属性)来确定类别的模式(输出属性)。有目标的数据挖掘算法称为有监督的算法。
典型的分类算法有决策树算法,神经网络算法和贝叶斯算法
聚类:
在同一个聚类中的事例或多或少有相似的属性值。
聚类分析是一个无监督的数据挖掘任务,没有一个属性用于指导训练过程,因此,所有的输入属性都平等对待。大多数聚类算法通过多次迭代来构建模型,当模型收敛时算法停止,也就是说,当细分的边界变得稳定时算法停止。
关联:
关联也叫购物篮分析。关联通常用于确定常见的物品集和规则集,以达到交叉销售的目的。
关联任务有两个目标:找出经常一起出现的那些物品,并从中确定关联规则。
回归:
回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值来确定输出。回归使用的最流行的技术是线性回归和逻辑回归。
预测:
预测技术采用数列作为输入,表示一系列时间值,然后运用各种能处理数据周期性分析,趋势分析,和噪声分析的计算机学习和统计技术来估算这些未来的值。
序列分析:
序列分析用来发现一系列事件中的模式,这一系列事件称为序列。序列数据和时间序列数据的相似之处在于它们都包含连续的观察值,这些观察值是有序的。它们的区别是时间序列包含数值型数据,而序列包含离散的状态。
偏差分析:
偏差分析是为了找出一些特殊的事例,这些事例的行为与其他事例有明显的不同。
数据挖掘项目的生命周期
问题形成
数据收集
数据的清理和转换:数值转换,分组,聚集,缺失值处理,删除孤立点
模型构建(选择算法)
模型评估
报告和预测
应用集成
模型管理
参考文献:
数据挖掘原理与应用----SQL server 2008数据库
原文地址:http://blog.csdn.net/xinxing__8185/article/details/46397709