标签:
构造数据质量评估模型要经过4个步骤:确定数据集评估应用视图,选择评估指标,制定规则集,计算规则结果得分。
下面将结合具体的实例来说明如何构造数据质量评估模型。
1、确定数据集评估应用视图
在进行数据质量评估时,首先要提出数据质量评估的需求,要确定哪些数据是用户感兴趣的(包括数据库、数据库中的数据集和数据集上的字段),对它们建立对应的用户视图。
2、选择评估指标
对于每个给定的数据集,选择所需要的评估指标: 对于Customer,选择完整性和有效性两个指标。
3、制定规则集
根据选择的评估指标,制定数据质量评估规则,并确定它们相应的权值和期望值。对于Customer,针对完整性和有效性指标制定以下规则:
(1)ID 非空(权值:5,期望值:90):完整性
(2)ID长度为18位(权值:10,期望值:90):准确性
(3)Sex值为 F 或 M (权值:10,期望值:98):有效性
4、计算规则结果得分
对于规则集中的每条规则R,检查数据集上的数据实例,计算满足R的数据元组的百分比,得到R对应的结果S。计算数据元组总数的百分比,就是最终结果:假设它们的结果分别为95,90,90。
参考
http://www.chinaz.com/web/2012/1112/281738.shtml
http://blog.sina.com.cn/s/blog_66239fdb0100z9yf.html
标签:
原文地址:http://www.cnblogs.com/benchen/p/5852963.html