码迷,mamicode.com
首页 > 其他好文 > 详细

海量数据模型实施方法论恢复

时间:2017-10-01 11:16:29      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:模型设计   提取   加工   目标   应该   定义   无法   解释   转换   

模型是现实世界实物特征的一种抽象,比如地图,沙盘,气象图或者星象图等。数据模型是实物数据特征的抽象。 一。LDM(逻辑数据模型) 三要素:实体,属性和关系,采用实体-关系模型,用ERwin建模。 模型设计的好坏直接关系到数据的: -稳定性 -易用性 -查询性能 -存储空间 -维护成本 理想的逻辑数据模型结构应该如下: -将相关的主题域进行组合,形成更少的高阶分组。 -主题域至少应该包含在一个主要主题域里面,达到可重用性。 -不同行业的主要主题域都不相同 -真实世界实物的描述,静态实体,以及它们之间动态的关系 -实体代表一个人,一个组织,概念或者事件 -属性描述了实体的特征和数据事实 -它们的关系有一对多,多对一,多对多 -相关对象的组合(实体,属性和关系)以表达一个特定的业务功能 -实体可以属于一个或者多个主题域,达到可重用性。 -一个主题域可以由一个或者多个ER图构成,以表达主要目标的不同方面 统一的逻辑数据模型框架构成: -用于管理数据建模的标准和规范 -用于创建可用于业务功能描述的模型方法论 -将逻辑数据模型封装到行业逻辑数据模型的方法论 二。模型设计流程 1)信息分析和数据提取 -了解源业务系统:业务种类和规则 -源业务系统的关系:数据接口,加工规则,怎样保持一致性 -了解源数据结构和流向 -数据概况:数据量,增全量导出方式,数据格式,数据质量 重点讲样本数据检验规则!!: - 验证业务规则 -表间数据关系分析 -每个字段的分析: 字段业务含义,字段取值范围, 字段间有无关联关系, 字段关系是否完整, 数据质量情况(非代码字段的空值,非法值,主键完整性,唯一性,外键完整性) -填写样本数据和代码表取值 2)逻辑模型的设计 目标: - 不针对某个特定的应用而设计 - 以第三范式存放数据,业务发生变化时易于扩展,适应复杂业务情况 - 稳定性:能够在很长时间(比如5年内)适应和回答不断变化的业务问题 - 易解释性:使用业务语言设计,易于IT和业务人员进行交流 步骤: - 统一业务术语:对重要的业务元素进行统一定义 - 构建LDM原型框架:确定着数据仓库的数据组织原则和基本形式,也确定着数据仓库的应用范围和应用模式 确定模型设计的主题范围,主题重要的LOGICAL VIEW, 各主题重要的实体,分类和关系,确定各实体的主键和候选键 - 基于LDM原型框架,进行各主题的详细设计: 创建各主题的实体和属性,尽可能简单,用业务无法二义性解释的语言进行说明 建立各实体的关系,准确体现业务规则 选择主键:逻辑主键或者代理主键 整理相关代码表:建立主外键关系 - 定义转化规则:从源系统到LDM的映射,数据类型,业务转换规则,对数据质量差和缺失的数据的业务规则进行补充说明 - 完善与跟踪: 与技术人员进行讨论: - 如果源业务系统的数据与业务描述不对应 - 如果重要的数据缺失 - 如果实体之间的关系不正确 与业务人员或者分析师进行讨论: - 是否能准确实现业务需求 - 是否能方便理解 - 重要的业务规则是否得以体现 3)物理模型的设计: 在逻辑数据模型的框架和原则上,针对系统性能和应用需求进行适当的非范式化的物理模型设计: 与LDM相同点: - 主题,实体,属性和关系一致

海量数据模型实施方法论恢复

标签:模型设计   提取   加工   目标   应该   定义   无法   解释   转换   

原文地址:http://www.cnblogs.com/dali133/p/7616769.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!