码迷,mamicode.com
首页 > 其他好文 > 详细

大数据服务之数据管理

时间:2019-11-09 00:11:35      阅读:92      评论:0      收藏:0      [点我收藏+]

标签:字符串类   灵活   多个   数据冗余   大数   标签   构建   阶段   原则   

数据管理过程主要包括:数据转换、数据关联、数据丰富、数据操作以及数据保持。

数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用。比如在数据采集阶段导入的原始数据,需要将其从字符串类型转换为浮点型,这样便于对该数据项进行求和。另外,也可能因为数据格式问题进行数据转换,比如原始数据为网页这样的半结构化数据,为了能够搜索到网页中的数据,往往需要将网页中的关键数据提取出来并做成标签,再把标签作为检索项,这样检索时就没有必要检索整个网页了,通过这样达到提高检索效率的目的。

数据关联是按照需要,借助关联属性将多个分散的数据源关联在一起,就像用一根绳子将多个数据串接起来一样,目的是方便定位所需数据,同时便于从多个维度进行数据统计。比如,身份号码、手机号码、终端设备号、网络编码等可以作为数据关联的外键,也可以根据分析需要构建多个数据表,以实现数据的关联。

范式原则可以提高操作型数据模型对业务需求响应的灵活性,减少数据冗余,分析型数据模型则希望通过数据关联形成面向多个主题的数据模型,面向主题的数据模型更加接近于用户需求,便于多维度地分析和展现数据。

数据丰富也是为了满足业务需求而对数据进行的完善,比如有一个学生,如

大数据服务之数据管理

标签:字符串类   灵活   多个   数据冗余   大数   标签   构建   阶段   原则   

原文地址:https://blog.51cto.com/lifudong/2448810

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!