基于维基百科的语义Web搜索技术研究

来源 :天津理工大学 | 被引量 : 2次 | 上传用户:liyaohuaok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的Web搜索技术是基于关键词的搜索,信息的查全率和精确度仍然不能满足用户的需求,其效果常常不能使人满意。这是由于在Web搜索过程中,缺乏搜索引擎可读的语义信息,因而限制了计算机自动分析处理以及进一步的智能化处理的能力。因此,为了提高搜索引擎检索信息的精准度和智能性,传统的基于关键字的搜索引擎要向更智能的语义检索方向发展。语义搜索要有一个概念的语义空间网络作为支撑,维基百科(Wikipedia)是一个开放式的在线百科全书,它是世界最大的包含了大量人类知识和语义关系的知识库资源。如何充分利用维基百科的知识,为现有的搜索技术添加语义处理能力,优化信息检索过程,即成为本论文的研究课题。本文主要的工作如下:首先,针对维基百科中的信息组织及结构特点,抽取出语义信息。对维基百科数据的处理,我们应用了大数据处理的技术,构建了基于Hadoop的维基数据包处理云平台。通过建立一套基于对象模型的应用程序接口,得到了维基百科主题页面中我们感兴趣的语义信息,包括概念、类别、链接、摘要段(主题页面的第一段),这为后续的语义相关度计算提供了必要的结构性和内涵性信息。本文的处理技术还能为以后的维基百科大数据处理提供借鉴。其次,提出了一种计算词条语义相关度的新方法,称为WLA算法(Wikipedia Link and Abstract)。在上述对维基百科抽取出相关信息的基础上,我们重点研究了链接关系和摘要段的内容。链接关系(包括入链和出链)与摘要段公共词的特征能很好地反映出概念之间的联系,通过对其分别赋以不同的权重,实验结果显示WLA的Spearman相关系数达到了0.68,取得了令人满意的结果。最后,开发了语义搜索系统的原型。将我们提出的WLA算法集成到系统中,实现了能够提供普通用户和语义研究人员进行语义搜索的平台。该搜索系统以维基百科对词语的解释为背景知识,包括语义计算,语义概念查询和文本注释三大功能。语义计算功能可计算出词条语义相关性;语义概念查询系统提供基于维基百科的语义词典功能,对偏生词,多义词,歧义词进行语义解释,可以帮助用户扩展知识,能够增强搜索引擎处理查询的能力;文本注释功能对短文本中的专有名称进行注解,只要文本中的词条在维基百科有与之对应的主题页面,那么系统会对该词条进行注解并加入链接功能。该原型可作为语义搜索相关研究的测试平台。
其他文献
随着研究生信息化建设的不断发展,基础设施的不断投入与升级,各应用系统的开发也得到了迅速的开展,比如,研究生调剂系统、学籍管理系统、成绩管理系统等等。现在研究生信息管理系
肺癌是当今对人类生命健康危害最大的恶性肿瘤之一,特别近半个世纪以来,各国肺癌的发病率和病死率都在急剧上升。在CT日益普及的今天,CT扫描已成为肺癌筛检最重要的手段。然
随着互联网的迅猛发展、上网设备的快速普及以及大容量存储器的出现,人们获得信息的速度越来越快,数量也越来越多。尤其是近两年移动互联网络技术迅猛发展以及移动终端的迅速普
随着互联网的普及,以木马为首的的恶意软件日渐猖獗,利用木马进行计算机犯罪的案件也逐渐攀升。不法分子们将木马植入用户的计算机中,以窃取有价值的信息如银行帐号、密码等
全球地震主要分布于环太平洋和喜马拉雅——地中海两个地震带。我国正好介于这两个地震带之间,是个地震频发的国家。加上人口稠密和房屋抗震性能差等问题,地震已经成为造成我
由于当前嵌入式系统的硬件平台多种多样,相应的软件开发往往是针对特定的平台、特定平台的板级支持包(BSP)以及硬件抽象层(HAL)的,因而开发的软件往往需要进行与平台相关的修
随着计算机性能的提高和控制技术的发展,离散控制系统理论越来越受到人们的重视。控制系统中普遍存在着时滞现象,时滞往往使得系统性能下降。另外,控制系统一般都是在外界扰
基于立体视觉的三维重建是计算机视觉领域的研究热点,在机器人导航、虚拟现实、建筑、工业设计等方面有重要作用。目前大多数三维重建研究工作集中在针对单个物体的三维建模
作为人工智能的重要研究领域,机器人学科半个世纪以来取得了飞速的发展。自主机器人的路径规划问题,如今已成为人工智能领域的前沿课题,引起了各国学者的高度重视。在自主式
无线传感网络(Wireless Sensor Network,WSN)中节点的定位技术是无线传感网络技术的核心技术之一,在很多应用中,位置信息的准确性是节点数据信息实用性的前提。在网络节点成