数据挖掘笔记

时间：2015-07-07 13:16:33 阅读：239 评论：0 收藏：0 [点我收藏+]

关联分析、噪声、高维性

数据挖掘不是信息检索

数据库中知识发现KDD：

输入数据->

数据预处理(特征选择、维归约、规范化、选择数据子集)->

数据挖掘->

后处理(模式过滤、可视化、模式表示)->

信息

数据预处理阶段，涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值。

后处理阶段，还能用统计度量或假设检验，删除虚假的数据挖掘结果。

数据挖掘利用了来自如下一些领域的思想：1.来自统计学的抽样、估计、假设检验 2.人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论 3.数据库技术 4.分布式计算、并行计算

数据挖掘任务：预测任务( 由一些属性(自变量或说明变量) 预测其他特定的属性(因变量或目标变量) )、描述任务(导出概括数据中潜在联系的模式)(相关、趋势、聚类、轨迹、异常)。

预测建模任务：分类(classification)(用于预测离散的目标变量) 和回归(regression)(用于预测连续的目标变量)

关联分析(association analysis) 用来发现描述数据中强关联特征的模式。

聚类分析(cluster analysis) 旨在发现紧密相关的观测值群组，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。

原文地址：http://yuzwei.blog.51cto.com/10126623/1671543

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行