论文部分内容阅读
基于语义的企业异构数据库集成首先需要判断哪些属性在语义上相关联,也就是语义相似性的判定。本文通过比较国内外研究方法的优点与不足,提出了一种面向企业异构数据集成的多策略语义匹配方法。该方法融合了几种语义匹配策略,通过比较全面的分析属性信息,来保证属性语义相似性判断的准确性。论文重点研究了以下几个方面: 1)多策略的异构数据语义匹配方法:参考了本领域内的其他研究方法,形成了本文的多策略匹配思想,即通过多种策略全面的分析属性信息,来达到更准确的属性相似性判定的目的。 2)策略1—基于WordNet的名称分析方法:属性名称蕴含了比较丰富的属性信息。通过引入语义词典WordNet,实现了一种基于WordNet的语义相似度计算方法。 3)专用词表构建方法:针对WordNet本身的不足,提出了构建专用词表的方法。借以增强WordNet分析的准确性。本文在国内首次提出使用RDFSchema进行词表表达的方法。 4)策略2—基于SOM网的语义分类法:通过将属性模式信息和数据内容转化为SOM网的特征向量来实现对属性的分类。通过计算元数据的敏感度,改进了初始权值分配方法。研究了构建SOM网分类模型的方法。 5)多策略语义匹配结果的融合方法:通过采用多策略方法,得到两个语义匹配结果集。本文提出了一种双向修正的融合方法,用来处理语义匹配结果集并得到比较好的属性相似度判断结果。 6)XML文档解析技术:提取的属性信息存放在XML文档中。本文深入学习了解析XML文档的方法,并在系统中具体实现。