标签:
王曰芬 章成志 张蓓蓓 吴婷婷
Ⅰ 手工实现
Ⅱ 编写专门的应用程序
Ⅲ 解决某类特定应用域的问题
Ⅳ 与特定应用领域无关的数据清洗
Ⅲ、Ⅳ通用性较强
Ⅰ Trillium的模型(Trillium[7]是由Harte Hanks Data Technologies的Trillium Software Systems部门创建的企业范围的数据清洗软件。)
将数据清洗的过程分为5个步骤:
Ⅱ Bohn模型
将数据清洗分为以下4个主要部分:
Ⅲ AJAX模型
将数据清洗分为5个步骤:
Ⅲ 其他工具
基于引擎的工具
数据分析工具
业务流程再设计工具
数据轮廓分析工具
数据挖掘工具
Ⅰ 可信度
精确性:描述数据是否与其对应的客观实体的特征相一致。
完整性:描述数据是否存在缺失记录或缺失字段
一致性:描述同一实体的同一属性的值在不同的系统是否一致
有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。
唯一性:描述数据是否存在重复记录。
Ⅱ 可用性
时间性:描述数据是当前数据还是历史数据
稳定性:描述数据是否是稳定的,是否在其有效期内
标签:
原文地址:http://www.cnblogs.com/XBWer/p/4198804.html