Web信息集成中数据清洗的研究

被引量 : 0次 | 上传用户:wenhui10005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据清洗的需求由来己久,对数据清洗技术的研究一直是数据管理领域及其相关领域中一个非常热门的课题。本文主要研究的是在Web信息集成过程中“脏数据”问题的解决方法,重点研究了重复记录检测及其相关算法,为消除脏数据、保证集成数据的质量提供了一套解决方案。本文首先论述了数据质量的定义及其相关概念,总结了数据清洗技术的原理,数据清洗的方法,并给出数据清洗的评价标准。针对数据清洗的一般步骤,提出数据清洗的框架一种是与领域无关的基于元数据的数据清洗框架,一种是基于领域知识的数据清洗框架。此外还分别对不完整数据,异常数据和重复记录的数据清洗技术进行了研究,给出了它们的定义,实例,清洗的一般步骤,基本流程,可采用的清洗方法。本文就重复记录清洗中各个步骤所涉及的关键算法进行了研究,主要包括基于编辑距离的字段匹配算法,记录匹配的Pair-Wise比较算法,重复记录检测的SNM算法,给出了算法的基本思想,算法复杂度分析。并针对SNM算法进行了改进。本文还给出了重复记录合并/删除的规则。根据Web信息集成中Web数据的特点,给出了基于Web的数据清洗框架,该框架主要是利用XML特点,在XML对数据库映射的同时进行数据清洗的预处理,即对数据进行元素化,标准化,提高数据清洗的效率。利用前面研究的重复记录清洗的算法,对Web信息抽取后的数据进行了重复记录的检测,并根据实验结果进行了相关分析。本文最后提出了一种基于中文的重复记录检测方法,主要是根据汉语的特点,在匹配前进行中文分词和语义匹配,以提高记录的匹配度。目前数据清洗在数据仓库领域已经取得了相当的发展,但是国内外的研究人员始终没有提出一个基于Web的通用数据清洗框架,由于Web数据的特点,Web数据清洗与基于关系数据库的清洗不同,国外提出了XML键,XML相似度的概念。随着Web信息集成的发展,针对Web数据的清洗越来越受到人们的重视。
其他文献
目的探讨3D打印切模辅助全膝关节置换术的护理配合。方法回顾性分析15例采用3D打印切模辅助全膝关节置换术患者的临床资料,总结术前准备、手术中体位摆放、器械管理及配合、
<正>中共中央、国务院在《关于促进残疾人事业发展的意见》中指出:"优先开展残疾儿童抢救性治疗和康复,对贫困残疾儿童康复给予补助,研究建立残疾儿童康复救助制度。"党和政
近年来,多糖饮食儿童不断增加,由于每天从食物中摄取的糖分过多,部分患儿出现龋齿、营养不良,严重者出现情绪不稳定,莫名其妙的烦躁不安,伤人毁物,睡眠差,学习成绩下降,更甚
目的:玉米须又名包谷须﹑蜀黍须,为禾本科玉蜀黍Zea mays L.的干燥花柱和柱头。最早药用记载见于1476年的《滇南木草》。味甘性平,能利水消肿,利湿退黄。能够利尿消肿,降血压。
随着医学模式的转变,医疗卫生制度的改革,医疗市场风云变幻。举证责任倒置制度的实施,人们法制观念的加强,患者和社会对医生的期望值增高,医患矛盾逐渐加剧,而国家对医生的各
频率合成技术广泛应用于通信、航空航天、仪器仪表等领域,目前,常用的频率合成技术有直接频率合成、锁相频率合成和直接数字频率合成(DDS)等。其中DDS是一种新的频率合成方法,是
目前,数字信号处理广泛应用于通信、雷达、声纳、语音与图像处理等领域,信号处理算法理论己趋于成熟,但其具体硬件实现方法却值得探讨。FPGA是近年来广泛应用的超大规模、超高速
本文综述了石油树脂及加氢催化剂的研究进展;制备了加氢催化剂,利用快速比表面积和孔隙分析仪、X射线粉末衍射仪(XRD)、原子吸收光谱仪、扫描电子显微镜(SEM)、X射线能量色散谱仪等
<正>■贫困聋儿抢救性康复项目,总投入额度超过4亿元,是建国60年来中央财政救助残疾人康复项目投入最多的一次,也是中央财政对贫困聋儿群体开展的规模最大、额度最高的一次政
通过对《寂静的春天》一书的解读,对卡森破解人类文明与自然生态和谐共存困境的生态哲学思想基石——人类中心主义批判进行了重点研究,介绍了卡森作为拯救环境危机和生态危机