数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)
OLAP是一种分析技术,具有汇总,合并和聚集功能,以及从不同的角度观察信息的能力。
但,对于深层次的分析,如数据分类,聚类和数据随时间变化的特征,仍然需要其他 分析工具。
尽管市场上已有许多“数据挖掘系统”,但是并非所有的 都能进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多称为机器学习系统,统计数据分析工具。
可规模化的算法。
实体联系(ER)数据模型,将数据库作为一组实体和他们之间的联系进行建模。通常为关系数据库建造ER模型。
关系数据库
多为数据库{OLAp}
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般数据挖掘任务可以分为两类:描述 和 预测。
描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测.
多粒度(不同抽象层)分析
2.概念类描述:特征和区分
数据特征(多维挖掘)泛化关系;
数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较(用户定义比较类,由数据库得到其他 对象的相同类进行比较);
区分规则: 沿已知维度或者添加新的维度。
关联分析:
分类和预测:
分类:它找描述或识别数据类或概念的模型(函数),以便能够使用模型预测类标号未知的对象。
如何提供导出模型?
:分类规则、判定树、数学公式 、神经网络。
判定树 是类似一个流程图结构,每个结点代表一个属性值的测试,每个分支代表测试的一个输出,树叶代表类或者类分布。
比较容易转换为分类规则。
演变分析:
数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。
数据挖掘性能问题:数据挖掘算法的有效性、可规模性和并行处理。
原文地址:http://www.cnblogs.com/puck/p/3709491.html