论文部分内容阅读
数据清洗的需求由来己久,对数据清洗技术的研究一直是数据管理领域及其相关领域中一个非常热门的课题。本文主要研究的是在Web信息集成过程中“脏数据”问题的解决方法,重点研究了重复记录检测及其相关算法,为消除脏数据、保证集成数据的质量提供了一套解决方案。本文首先论述了数据质量的定义及其相关概念,总结了数据清洗技术的原理,数据清洗的方法,并给出数据清洗的评价标准。针对数据清洗的一般步骤,提出数据清洗的框架一种是与领域无关的基于元数据的数据清洗框架,一种是基于领域知识的数据清洗框架。此外还分别对不完整数据,异常数据和重复记录的数据清洗技术进行了研究,给出了它们的定义,实例,清洗的一般步骤,基本流程,可采用的清洗方法。本文就重复记录清洗中各个步骤所涉及的关键算法进行了研究,主要包括基于编辑距离的字段匹配算法,记录匹配的Pair-Wise比较算法,重复记录检测的SNM算法,给出了算法的基本思想,算法复杂度分析。并针对SNM算法进行了改进。本文还给出了重复记录合并/删除的规则。根据Web信息集成中Web数据的特点,给出了基于Web的数据清洗框架,该框架主要是利用XML特点,在XML对数据库映射的同时进行数据清洗的预处理,即对数据进行元素化,标准化,提高数据清洗的效率。利用前面研究的重复记录清洗的算法,对Web信息抽取后的数据进行了重复记录的检测,并根据实验结果进行了相关分析。本文最后提出了一种基于中文的重复记录检测方法,主要是根据汉语的特点,在匹配前进行中文分词和语义匹配,以提高记录的匹配度。目前数据清洗在数据仓库领域已经取得了相当的发展,但是国内外的研究人员始终没有提出一个基于Web的通用数据清洗框架,由于Web数据的特点,Web数据清洗与基于关系数据库的清洗不同,国外提出了XML键,XML相似度的概念。随着Web信息集成的发展,针对Web数据的清洗越来越受到人们的重视。