基于搜索日志的用户语义本体构建研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:acdef2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网信息技术的迅速发展,互联网上的信息资源已经达到海量级别,并且正呈指数级形式增长,海量网页数据的结构复杂性和用户查询词简短及语义模糊性等特点给现有搜索引擎的发展带来了极大的挑战。检索系统如何能够准确的理解用户输入查询词的信息需求,根据不同用户返回不同的检索结果,即根据不同的用户提供个性化的服务,这是用户越来越关心的问题。要为用户提供个性化的服务,就必须挖掘用户的相关领域知识背景,为搜索引擎提供一个面向用户的知识模型,即用户本体。一般情况下,搜索引擎搜集了大量的用户搜索日志,这些数据记录了用户历史查询词和对应点击网页的信息,通过分析这些历史数据,能够挖掘出用户的领域背景知识。本体(Ontology)作为语义网的关键技术,它通过提供一个领域的词汇和形式概念,使得信息的共享和交互变得容易和简单。本文的主要工作如下:首先,本文提出了一种新颖的用户查询词语义相似度计算方法,采用AGNES(Agglomerative Nesting)层次聚类算法,将用户查询词按用户个性化兴趣和知识背景进行主题分类。本文首先提出了基于用户搜索日志的三种用户查询词语义相似关系①基于用户原始查询词本身的相似关系,②基于用户扩展查询词的相似关系,③基于用户点击URLs的相似关系。通过分析这三种语义关系,将它们按照线性组合的方式组合,形成了一种新颖的计算用户查询词语义相似度的方法。基于这种用户查询词语义相似度函数,利用AGNES层次聚类算法,将用户查询词根据用户搜索日志中所反映的主题进行语义主题聚类,从而达到消除用户查询词语义模糊性的目的。其次,本文提出了一种利用用户查询词语义主题聚类结果和WordNet通用本体建立一个用户查询词兴趣主题领域知识模型,即用户语义本体(User Semantic Ontology)的方法。该方法过程如下①根据用户查询词语义主题聚类结果,生成用户原始查询词-用户点击文档和扩展查询词-用户点击文档之间的形式背景,②优化扩展查询词-用户点击文档之间的形式背景,合并原始查询词和优化后的扩展查询词的形式背景,并构建概念格,通过概念格-本体转化的规则,将概念格转换为初始本体,③利用WordNet优化初始本体。该用户本体表达了一个用户的兴趣偏好,然后将其应用于主题搜索引擎,进而可以把信息采集从基于关键词的相关度匹配技术层面提高到基于语义层面的查找。最后,利用VC++6.0开发应用程序进行验证。实验表明,通过本文本体构建方法,用户查询词能更好的根据用户兴趣和知识背景来区分其真实语义,消除其语义模糊性。
其他文献
学位
医院信息化是我国现代医疗发展的新趋势,也是我国进行现代化医疗改革中很重要的一部分内容。随着计算机网络技术、计算机图形图象处理技术等众多计算机技术的发展为数字化医院
随着全球经济的快速发展,城市交通问题已日益严重,智能交通系统的应用越来越广泛,城市交通系统的智能化技术成为国内外的研究热点。   视频监控技术中的基于视频的运动目标检
量子遗传算法是新发展起来的一种概率演化算法,其优点是种群规模小,全局搜索能力强和收敛速度快。然而,量子遗传算法在解决复杂优化问题时的能力不是很强。为了提高量子遗传算法
随着信息时代的快速发展,信息的获取极其方便、快捷和全面。但是由于信息爆炸,又很难在海量信息中找到切实可用的信息。在教学方面,传统课件封闭固定,没有学生的参与,缺乏灵
随着数据信息化的飞速发展,数据已经成为当今各个领域的重要资源。数据信息的安全与否关系着企业的生存与发展,因此保证数据安全的远程数据容灾方案成为当前数据存储和数据安全
随着移动通信技术的不断发展,3G(3rd-generation)网络技术也越来越成熟,3G网络的用户数量也逐渐增多。3G网络是一个公开的网络,同时拥有数量庞大的用户群,对于信息隐藏的研究来
随着计算机网络和图形图像学的迅速发展,传统的基于文本的图像检索技术已经无法满足用户日益复杂的检索需求,所以基于内容的图像检索(Content-Based Image Retrieval,简称CBI
近年来,电子商务在全球经济中发挥了越来越重要的作用。而在众多的电子商务模式中,企业对消费者(B2C)模式越来越显示出其的巨大潜力。随着互联网的不断发展,网络上的信息量也在
基于SPH方法的流体模拟是将问题域化为一系列携带某一特定材料属性的粒子,利用每个粒子的运动确定整体的运动形态。而所有粒子的运动都可以通过其支持域内的全部粒子的运动属