关联分析、噪声、高维性
数据挖掘不是信息检索
数据库中知识发现KDD:
输入数据->
数据预处理(特征选择、维归约、规范化、选择数据子集)-> |
数据挖掘-> |
后处理(模式过滤、可视化、模式表示)-> |
信息
数据预处理阶段,涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值。
后处理阶段,还能用统计度量或假设检验,删除虚假的数据挖掘结果。
数据挖掘利用了来自如下一些领域的思想:1.来自统计学的抽样、估计、假设检验 2.人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论 3.数据库技术 4.分布式计算、并行计算
数据挖掘任务:预测任务( 由一些属性(自变量或说明变量) 预测 其他特定的属性(因变量或目标变量) )、描述任务(导出 概括数据中潜在联系的 模式)(相关、趋势、聚类、轨迹、异常)。
预测建模任务:分类(classification)(用于预测离散的目标变量) 和 回归(regression)(用于预测连续的目标变量)
关联分析(association analysis) 用来发现描述数据中强关联特征的模式。
聚类分析(cluster analysis) 旨在发现紧密相关的观测值群组,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
原文地址:http://yuzwei.blog.51cto.com/10126623/1671543