数据集成中基于本体的语义异构消除研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:vitchen02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和网络技术的飞速发展,大量的异构数据源应运而生。随着对信息综合利用需求的进一步提高,人们迫切希望解决这些异构数据源的集成问题。中间件技术的发展使得硬件平台、网络协议及操作系统的异构不再是人们关注的焦点。虽然ETL等新工具和新技术出现使得集成数据手段更加多样化,人们可以获取的数据资源日益丰富、数据量也急剧增加。但是人们逐渐意识到ETL等通用集成工具只消除了数据在语法、结构层次的异构,而缺乏有效解决语义异构的能力。传统的数据清洗技术大多也是从数据的文本取值的方面进行清洗处理,往往忽略了数据自身蕴含的语义信息,造成集成数据的质量低下。数据是信息的载体,数据价值不仅体现在数据量的积累上,更重要的是数据自身的质量。高质量的数据是各种数据分析工具(数据挖掘、OLAP等)得到有价值和有意义结果的首要条件,建立在劣质数据基础之上的决策支持系统是不可信的。数据集成中大量的劣质数据成为制约数据应用“瓶颈”。近年来数据质量问题成为人们广泛关注的焦点,如何集成高质量的数据成为当前亟待解决的问题。研究表明数据集成中的质量问题实际上主要是数据的“误理解”引起的。由于数据源的自治性、异构性与领域相关性造成了信息资源的语义异构,语义异构已经成为当前数据集成的引起数据质量问题的最大隐患。传统的数据集成方法,在数据的处理时过分依赖于数据模式提供的约束,没有考虑领域信息的语义约束,忽略了数据自身的语义信息。因此,如何在数据集成研究中引入语义特性成为提高数据质量的一个新的研究点。基于以上,本文通过基于本体的语义异构消除方法来解决数据集成中由于语义引起的数据质量问题。针对这一研究课题,文章的主要研究工作如下:首先,在信息化建设的背景下,对数据集成的目标、异构数据进行了研究,总结了数据集成的传统方法和基于本体的数据集成在国内外研究现状。其次,对数据库中的语义异构及其引起的语义冲突进行了详细的分析和探讨,对本体及相关技术的研究进行了总结,并以此作为支撑论文研究的理论基础,分析了现有数据集成研究中存在的不足,并论证了利用本体及相关技术解决语义异构问题的可行性。然后,基于领域本体能够捕捉数据库ER模型共性的特点,提出了消除示意性冲突的万法。通过形式化描述数据源概念模型中元数据的上下文环境,然后将元数据中隐藏的语义信息转化为实体的属性来解决数据库概念间的示意性冲突,实现了到目标模式的转化。在示意性冲突消除的基础上,结合本体拥有比关系模式更加强大的语义表达能力,通过扩展关系模式隐含的语义来检测数据层冲突。最后,在课题研究中的示意性冲突和数据层冲突消除方法的基础上,完成了油菜分子数据库后台数据的集成任务,有效的解决了现有数据集成中缺乏语义研究带来的数据质量问题。
其他文献
数据广播是目前移动环境中一种有效的数据访问方式。服务器将热点数据通过公共信道周期性地发送出去,用户侦听广播信道并及时获取自己感兴趣的内容。与传统的点对点数据访问
学位
图像分割是图像处理中的一项关键技术,其目的是将目标和背景分离,为后续处理提供依据,其结果直接影响到其后的信息处理过程。然而到目前为止,对图像分割的效果好坏,还没有一
面对信息化社会层出不穷的海量级信息,信息系统已成为信息处理必不可少的强有力的工具,信息系统的安全也越来越受到人们的广泛重视。而作为信息系统底层支持的操作系统的安全
在当今信息时代,计算机网络在人们的日常生产、生活中扮演越来越重要的角色。一旦网络中发生故障,总是要求网络工程师和网络管理人员能迅速、准确的对故障的类型以及故障的根
煤矿井下环境恶劣,给煤矿的安全生产和矿工的身心健康带来很大威胁。为了煤矿安全生产和管理以及矿工健康,有必要对矿井环境条件和矿工生命体征进行监控。无线传感器网络是一
互联网体系架构正面临着严峻的安全和管理挑战,迫切需求具备可信性和可控性特征的新架构。已有的网络体系结构要么是基于边缘论和面向非连接的设计思想,导致分组传输路径不可
随着Internet技术的快速发展,基于B/S结构的高校教务管理系统如何在使用过程中避免非法修改、事后否认、非法截取等行为已经直接威胁到高校教务系统的使用安全。现代密码理论
学位
随着互联网时代的飞速发展,广告载体逐渐由传统的报刊、杂志等媒介向网络转移,计算广告由此衍生出来。根据广告展现给用户的形式,可以将其分为展示广告和搜索广告,本文只对搜索广
21世纪,“互联网+”已经成为社会的热点话题,而“互联网+医疗”正是政府积极推广的新型在线医疗卫生模式,其中包含了构建电子病历等重要举措,大量的医疗信息数据随之产生。电