码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘笔记

时间:2015-07-07 13:16:33      阅读:239      评论:0      收藏:0      [点我收藏+]

标签:数据挖掘导论 人民邮电出版社

关联分析、噪声、高维性


数据挖掘不是信息检索


数据库中知识发现KDD:

输入数据->

数据预处理(特征选择、维归约、规范化、选择数据子集)->
数据挖掘->
后处理(模式过滤、可视化、模式表示)->

信息


数据预处理阶段,涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值。

后处理阶段,还能用统计度量或假设检验,删除虚假的数据挖掘结果。


数据挖掘利用了来自如下一些领域的思想:1.来自统计学的抽样、估计、假设检验 2.人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论 3.数据库技术 4.分布式计算、并行计算


数据挖掘任务:预测任务(  由一些属性(自变量或说明变量) 预测 其他特定的属性(因变量或目标变量)  )、描述任务(导出 概括数据中潜在联系的 模式)(相关、趋势、聚类、轨迹、异常)。


预测建模任务:分类(classification)(用于预测离散的目标变量)  和  回归(regression)(用于预测连续的目标变量)

关联分析(association analysis) 用来发现描述数据中强关联特征的模式。

聚类分析(cluster analysis) 旨在发现紧密相关的观测值群组,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

数据挖掘笔记

标签:数据挖掘导论 人民邮电出版社

原文地址:http://yuzwei.blog.51cto.com/10126623/1671543

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!