论文部分内容阅读
随着万维网快速发展,深层网络中蕴含的信息日益增加。由于深层网络具有规模大、异构性、自治性等特点,如何使用户高效、快捷地获取自己满意的信息面临挑战。为了解决这一问题,需要对深层网络查询接口进行集成。深层网络查询接口集成包括若干步骤,但其中至关重要的一步是接口间模式匹配。只有实现了该匹配过程,才能对查询接口模式进行集成,最终得到一个全局查询接口。用户在全局查询接口上提交所要查询的信息,屏蔽掉与搜索无关的细节,得到最满意的查询结果。本文主要研究深层网络接口模式匹配问题,深层网络接口模式匹配的目的是找到局部查询接口之间的属性或是局部查询接口与全局查询接口之间的属性的最佳匹配关系,以解决查询接口之间存在的同名异义或异名同义的现象。目前解决深层网络查询接口模式匹配的方法有很多,现有的方法大多是针对局部查询接口之间的模式匹配进行研究,并且忽略了深层网络本身的特点。本文针对局部查询接口与全局查询接口之间的模式匹配进行研究,同时利用了深层网络的特点,提出了基于机器学习的深层网络接口模式匹配方法,该方法把模式匹配问题转化成了机器学习中的分类问题。本文使用集成学习中的多策略学习技术,研究已经证明多策略学习技术比单一的学习器准确度要高。同时,本文为了增强匹配的准确度,在训练阶段和匹配阶段均引入领域本体的概念,丰富了属性的匹配信息,提高了匹配的准确度。除此之外,本文考虑到查询接口中往往包含丰富的结构信息,为了充分利用层次结构树信息,提出了一种新的学习器算法,该过程能够有效的纠正了前一个阶段的匹配结果,使得匹配准确度进一步提高。为了评估基于机器学习的深层网络查询接口模式匹配的执行情况,本文分别以图书销售领域和航空订票领域的120个数据源作为训练集,40个数据源作为待匹配模式集进行实验验证,实验结果表明,该方法有较高的准确度。