标签:
一、数据仓库安装
ORACLE数据库版本是:10.2.0.1.0(服务器)。执行基本安装(安装全部的组件)并创建示例数据库。
这个软件没有单独的下载,它位于ORACLE DATABASE 10g Release 2 Companion CD中,Companion CD需要到ORACLE网站下载对应的10g Release 2版本。ORACLE Workflow Server安装目录与ORACLE DATABASE 10g Release 2的安装目录相同。【备注:ORACLE DATABASE 10g Release 1(10.1.0.2.0)对应的WFS版本是2.6.3;ORACLE DATABASE 10g Release 2(10.2.0.1.0)对应的WFS版本是2.6.4,版本号不对应将无法安装!】
OWB版本是:10.2.0.1.0。
这个也是需要到ORACLE网站下载。并且对版本有要求的。这个软件解压缩就可以了,没有安装程序。【备注:AWM 10203A需要ORACLE DATABASE 10.1.0.4.0及以上版本,10.1.0.2.0升级到10.1.0.4.0需要对应的升级包,这个升级包好像只有正版用户才能下载到。本文的AWM 10203A可以与ORACLE DATABASE 10g Release 2一起使用,但是不能与ORACLE DATABASE 10g Release 1一起使用!】
二、数据仓库配置
或者使用SQLPLUS完成:
sqlplus "/as sysdba"
sql>grant execute any procedure to owf_mgr
sql>grant create any job to owf_mgr
OracleDB_Install_Path\wf\admin\sql\wfnlena.sql
输入以下参数:ZHS(Language_Code) Y(Y/N)
直至完成
三、数据仓库设计和ETL
OWB主要包含一个"设计中心"和一个"控制中心"。"设计中心"负责数据仓库的维、立方、映射、工作流等的设计。"控制中心"负责对"设计中心"中的对象进行部署,对工作流执行调度等。
设计中心:
控制中心管理器:
User Name:连接数据源的表的数据库用户名称
Password:连接数据源的表的数据库用户的口令
Host:作为数据源的表所在的数据库服务器机器的IP地址
Port:作为数据源的表所在的数据库服务器的端口
Service Name:作为数据源的表所在的数据库的Service Name
一种方式是"新建"模块后,自动进入"导入"向导;另外一种方法是选择刚才建立的数据源模块,单击右键"导入"
按照导入向导导入作为数据源的表以及其它需要用到的对象
【注意:一个维必须有一个"代理标识符"和一个或多个"业务标识符","代理标识符"默认是number型的,不能修改,也不需要修改。】
在ORACLE数据库的目标模块下,找到"转换"-"函数",新建2个函数:
函数名 |
作用 |
ZHUANHUAN |
输入CODE和NAME,如果NAME为空,则将NAME设置为CODE的值 |
NULL2ZERO |
将空值转换为0 |
函数名 |
返回类型 |
参数名称 |
参数类型 |
I/O |
必需? |
ZHUANHUAN |
VARCHAR2 |
CODE |
VARCHAR2 |
输入 |
是 |
NAME |
VARCHAR2 |
输入 |
是 |
||
NULL2ZERO |
NUMBER |
IN_VALUE |
NUMBER |
输入 |
是 |
函数"ZHUANHUAN"的代码如下:
RET_NAME NVARCHAR2(256);
BEGIN
NULL; -- 允许编译
IF lengthB(NAME) = 0 OR NAME IS NULL THEN
RET_NAME := CODE;
ELSE
RET_NAME := NAME;
END IF;
RETURN RET_NAME;
EXCEPTION
WHEN OTHERS THEN
NULL; -- 在此处输入任意异常代码
RETURN NULL;
END;
函数"NULL2ZERO"的代码如下:
RET_VALUE NUMBER;
BEGIN
NULL; -- 允许编译
IF lengthB(IN_VALUE) = 0 OR IN_VALUE IS NULL THEN
RET_VALUE := 0;
ELSE
RET_VALUE := IN_VALUE;
END IF;
RETURN RET_VALUE;
EXCEPTION
WHEN OTHERS THEN
NULL; -- 在此处输入任意异常代码
RETURN NULL;
END;
四、使用Oracle Discoverer进行BI展现
开始-"Oracle - BIHome1 Enterprise Manager"-"Start Application Server Control"
开始-"Oracle Business Intelligence - BIHome1"-"Start 实例名.机器名"
五、使用BI Beans与JDeveloper开发自定义BI展现应用程序
六、名词术语解释
本世纪80年代中期,"数据仓库之父"William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。
即数据集市,或者叫做"小数据仓库"。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库和多维分析的概念,即OLAP。Codd提出OLAP的12条准则来描述OLAP系统:
准则1 OLAP模型必须提供多维概念视图
准则2 透明性准则
准则3 存取能力推测
准则4 稳定的报表能力
准则5 客户/服务器体系结构
准则6 维的等同性准则
准则7 动态的稀疏矩阵处理准则
准则8 多用户支持能力准则
准则9 非受限的跨维操作
准则10 直观的数据操纵
准则11 灵活的报表生成
准则12 不受限的维与聚集层次
基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。代表产品有Informix Metacube、Microsoft SQL Server、OLAP Services.
严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据的Arbor Software,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为MuiltDimension OLAP,简称MOLAP,代表产品有Hyperion(原Arbor software) Essbase、Showcase STRATEGY等。
相对于Server OLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有Brio Designer, Business Object.
决策支持系统(Decision Support system),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据和信息,经过加工整理,来为企业决策管理层提供信息,为决策者的决策提供依据。
数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,可以让用户随时可以面对数据库,获取所希望的数据。
领导信息系统(Executive Information System),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。
业务流程重整(Business Process Reengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作。数据仓库的重要作用之一。
商业智能(Business Intelligence),指数据仓库相关技术与应用的通称。指利用各种智能技术,来提升企业的商业竞争力。
数据挖掘,Data Mining是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策。
客户关系管理(Customer Relationship management),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM其实应该算是一个古老的"应用"了。比如,酒店对客人信息的管理,如果某个客人是某酒店的老主顾,那么该酒店很自然地会知道这位客人的某些习惯和喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间和服务。这就是一种CRM.
元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。为数据仓库的发展和使用提供方便。
维度是用来反映业务的一类属性,这类属性的集合构成一个维度。如时间、地理位置或产品,
粒度将直接决定所构建仓库系统能够提供决策支持的细节级别。粒度越高表示仓库中的数据较粗,反之,较细。粒度是与具体指标相关的,具体表现在描述此指标的某些可分层次维的维值上。例如,时间维度,时间可以分成年、季、月、周、日等。
指标也称关键性能指标、事实或关键事务指标,是沿维度衡量商务信息的工具。每一个指标代表了业务对象所固有的一个可供分析的属性。指标是典型的数量、容量或将通过同标准的比较查明的款项。这些数据点可用于商务性能的定量的比较。
实际上每一组用于分析的业务对象会有若干相互关联的指标,如营业额、纳税额。这些指标之间存在计算关系,往往是作为一个整体用于分析的,这个整体称之为指标组。
关于数据的数据。元数据用于描述数据仓库中的数据的结构、内容和数据源。
一种提供数据详细情况的词典。这些详细的信息包括数据源的目录和它们相关的标准。该数据目录描述的是数据捕捉和数据访问两种环境中可用的数据。该目录还应说明数据最后一次更新的时间和计划将要更新的时间—最起码,要说明数据维护的调度。数据目录还应说明数据的物理属性;也就是说,数据是如何存储的。数据目录帮助数据用户弄清楚"从哪里"可获得"什么样"的数据。
数据仓库中用于存储原始数据的存储介质。此处的原始数据指从业务系统中采集后经过清洗、转换的数据。
数据仓库中用于存放指标数据的存储介质。指标数据库根据数据仓库系统的使用对象划分,通常分成多个。
对数据仓库系统无用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。
数据仓库系统中后端处理的一部分。数据采集过程是指从业务系统中收集与数据仓库各指标有关的数据。
解释业务数据并修改其内容,使之符合数据仓库数据格式规范,并放入数据仓库的数据存储介质中。数据转换包括数据存储格式的转换以及数据表示符的转换(如产品代码到产品名称的转换)。
在线事务处理(on-line transaction processing,简称OLTP)能够提供一些记录级查询功能,现在分析人员要求从各个角度去观察一些统计指标,会对多张表千万条中的数据进行分析和信息综合。这是操作型应用力不从心的。1993年,关系数据库之父E.F.Codd将这类技术定义为在线分析处理(on-line analytical processing,简称OLAP)。
OLAP是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求,并辅助他们进行战略发展决策的制定。按照数据的存储方式分OLAP又分为ROLAP、MOLAP和HOLAP。
在客户信息数据仓库CCDW的数据环境下,OLAP提供上钻、下钻、切片、旋转等在线分析机制。完成的功能包括多角度实时查询、简单的数据分析,并辅之于各种图形展示分析结果。
是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体,典型内容包括指标数据、辐射数据,通常是有助于浏览和聚集指标数据的维度。星形图模型得到的结果常常是查询式数据结构,能够为快速响应用户的查询要求提供最优的数据结构。星形图还常常产生一种包含维度数据和指标数据的两层模型。
指一种扩展的星形图。星形图通常生成一个两层结构,即只有维度和指标,雪花图生成了附加层。实际数据仓库系统建设过程中,通常只扩展三层:维度(维度实体)、指标(指标实体)和相关的描述数据(类目细节实体)超过三层的雪花图模型在数据仓库系统中应该避免。因为它们开始像更倾向于支持OLTP 应用程序的规格化结构,而不是为数据仓库和OLAP应用程序而优化的非格式化结构。
标签:
原文地址:http://www.cnblogs.com/lohcve/p/4731557.html