标签:
之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方。
数据仓库的基本概念:
理解OLAP,数据仓库,数据挖掘的联系与区别,参考:http://hi.baidu.com/hhhqpfnybgbfqrd/item/784f2d14b46c3106b98a1a83
http://blog.csdn.net/cuipower/article/details/342070
————————————————————————————————————————————————————————————————————————————
数据仓库建模:数据立方体与OLAP
参考:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/
分类——根据其所用的聚集函数
————————————————————————————————————————————————————————————————————————————
数据仓库的实现
什么是数据立方体?
数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(维度)。
当我们试图从一堆数据中提取信息时,我们需要工具来帮助我们找到那些有关联的和重要的信息,以及探讨不同的情景。一份报告,不管是印在纸上的还是出现在屏幕上,都是数据的二维表示,是行和列构成的表格。在我们只有两个因素要考虑时,这就足矣,但在真实世界中我们需要更强的工具。
数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样。 “立方体”这个词让我们想起三维的物体,我们也可以把三维的数据立方体看作是一组类似的互相叠加起来的二维表格。
但是数据立方体不局限于三个维度。大多数在线分析处理( OLAP)系统能用很多个维度构建数据立方体,例如,微软的SQL Server 2000 Analysis Services工具允许维度数高达64个(虽然在空间或几何范畴想像更高维度的实体还是个问题)。
在实际中,我们常常用很多个维度来构建数据立方体,但我们倾向于一次只看三个维度。数据立方体之所以有价值,是因为我们能在一个或多个维度上给立方体做索引。
操作:
∵维灾难:概念分层太多,没地方存储
∴预计算部分方体——部分物化
————————————————————————————————————————————————————————————————————————————
数据泛化:面向属性的归纳
什么叫数据泛化?
数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。对大量数据进行有效灵活的概述方法主要有两种:(1)数据立方(data cube)方法;(2)基于属性的归纳方法。
数据立方体方法:基于数据的物化视图,通常在数据仓库中预先计算
面向属性的归纳:面向查询的、基于泛化的、联机的数据分析处理技术
注:两者没有固有界限
∵数据立方体技术不足以完成所有的大型数据集的概念描述任务
∴引出数据特征的面向属性的归纳
概念描述——以简洁汇总的形式描述给定的任务相关数据集,提供数据的有趣的一般性质。由特征和比较组成。
【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)
标签:
原文地址:http://www.cnblogs.com/XBWer/p/4331269.html