定义:不同的数据提供方对同一个事物即实体 (Entity)可能会有不同的描述 (这 里的描述包括数据格式 、表示方法 等) ,每一个对实体的描述称为该实体的一个引用。实体解析,是指从一个“ 引用集合”中解析并映射到现实世界中的“ 实体”过程 。 实体解析(Entity Resolution)又被称为 ...
分类:
其他好文 时间:
2016-04-17 00:21:12
阅读次数:
181
斯坦福实体解析框架(SERF)是由HectorGarcia-Molina领导的研究小组(Benjelloun, Garcia-Molina, Kawai, Larson, Menestrina,Su, Thavisomboon, and Widom,
2006)在斯坦福信息实验室开发出来的。SERF模型中,两个引用的成对解析被抽象成一个匹配方法(match function M),该方法通过操...
分类:
其他好文 时间:
2015-07-27 13:16:36
阅读次数:
97
今天分享个小技巧,是群里一个朋友问的,"请问 + 这种类型的字符串怎么转换成我们想要的字符 + ,有什么简便的js方法吗"其实问题说简单也简单,说难也难。我们要分情况来描述问题解决问题才行。一. 纯数字实体编码就例如 + , 这样的,那么借助 正则+fromCharCode ...
分类:
Web程序 时间:
2015-07-20 18:50:08
阅读次数:
205
本章将要介绍三种ER模型,这些模型分别涵盖了ER流程的不同层面,相互之间进行补充。第一个也是最先被讨论的模型是Fellegi-Sunter模型,该模型讨论的是如何利用直接匹配进行等价引用链接的方法。为处理概率匹配下的等价匹配问题,Fellegi-Sunter模型还提供了一种特殊的算法。我们要讨论的第二个模型是斯坦福实体解析框架(SERF),该模型针对ER的一般处理流程,定义出一系列通用术语,其中包...
分类:
其他好文 时间:
2015-07-13 10:19:37
阅读次数:
108
1. 从财务的角度上如何定义“资产”?信息在哪些角度符合这样的定义?又在哪些角度不符合?
2. 信息质量的度量单位是什么?
3. 举例来说明这样一种情况:同一条信息在它的其中一个应用中具有较高质量,在另一个应用中的质量则较低。
4. 找到一篇关于信息质量或数据质量的多维度框架的文章或书籍。解释它与Wang-Strong框架的区别以及相同之处。
5. ...
分类:
其他好文 时间:
2015-07-06 12:30:07
阅读次数:
123
信息质量的基本原则,就是为了将组织中的信息的价值最大化。信息的质量水平也直接与信息在其应用中所产生的价值关联。而数据质量则是信息质量的一个重要组成部分,它是根据预定义好的规格及需求,如何对数据进行评估,优化以及维护的实践。作为一种原则,信息质量覆盖了范围很广的知识以及技能的因素。IAIDQ IQ框架乃是由六个领域的内容所组成,其中包括:信息质量策略,政策以及监管;创建可推动信息质量发展的企业文化和...
分类:
其他好文 时间:
2015-06-29 10:02:13
阅读次数:
103
IQ和ER最直接的联系就是在第一章中所讨论到的实体引用准备流程(ERA2)。但是其实IQ和ER在其他方面也有着关联。ER过程一直都是IP创建的一部分,ER流程的有效性将会直接影响IP的质量。在某些情况下,ER过程就是公司将他们的ER和CDI服务提供给他们客户作为产品的IP。更经常的是,ER将作为实体数据(EBDI)集成的一个中间过程,EBDI是在第四章中详细讨论的话题。这将产生一个反馈循环,即在一...
分类:
其他好文 时间:
2015-06-24 11:03:39
阅读次数:
115
尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。
问题认知:数据清洗阶段
九十年代初期,在Inmon (1992),Kimball,
etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据...
分类:
其他好文 时间:
2015-06-08 11:48:25
阅读次数:
128
IQ与HPC
即使在现如今,大规模的数据处理以及虚拟无线内存不再像以前那么昂贵的时代,那些历史遗留下来的极简风格的数据内容,还是不断的困扰着现代信息系统。高性能计算(High-performance computing, HPC)如今已经不再仅仅是研究实验室里的玩物了,在近期兴起的云计算(Cloud computing)以及软件即服务(Software as a service, SaaS)(K...
分类:
其他好文 时间:
2015-06-01 11:42:02
阅读次数:
149
从最基础的层面上来说,信息质量是关于信息本身的知识,然而到目前为止,我们讨论的更多的则是有关信息处理的过程。尽管我们已经进入了所谓的“信息时代”,然而这么久以来,我们很少能够真正的将信息(数据)以及对数据处理的过程这两者区分开来。直到今天,所谓了信息时代如今更像是变成了“科技时代”。这种差异性可以追溯到当年计算机系统的内存还十分有限,大多数问题都要靠高效的算法来解决的时代。存储系统过小也导致了大多...
分类:
其他好文 时间:
2015-05-25 09:56:48
阅读次数:
119