论文部分内容阅读
近年来,随着互联网信息技术的迅速发展,互联网上的信息资源已经达到海量级别,并且正呈指数级形式增长,海量网页数据的结构复杂性和用户查询词简短及语义模糊性等特点给现有搜索引擎的发展带来了极大的挑战。检索系统如何能够准确的理解用户输入查询词的信息需求,根据不同用户返回不同的检索结果,即根据不同的用户提供个性化的服务,这是用户越来越关心的问题。要为用户提供个性化的服务,就必须挖掘用户的相关领域知识背景,为搜索引擎提供一个面向用户的知识模型,即用户本体。一般情况下,搜索引擎搜集了大量的用户搜索日志,这些数据记录了用户历史查询词和对应点击网页的信息,通过分析这些历史数据,能够挖掘出用户的领域背景知识。本体(Ontology)作为语义网的关键技术,它通过提供一个领域的词汇和形式概念,使得信息的共享和交互变得容易和简单。本文的主要工作如下:首先,本文提出了一种新颖的用户查询词语义相似度计算方法,采用AGNES(Agglomerative Nesting)层次聚类算法,将用户查询词按用户个性化兴趣和知识背景进行主题分类。本文首先提出了基于用户搜索日志的三种用户查询词语义相似关系①基于用户原始查询词本身的相似关系,②基于用户扩展查询词的相似关系,③基于用户点击URLs的相似关系。通过分析这三种语义关系,将它们按照线性组合的方式组合,形成了一种新颖的计算用户查询词语义相似度的方法。基于这种用户查询词语义相似度函数,利用AGNES层次聚类算法,将用户查询词根据用户搜索日志中所反映的主题进行语义主题聚类,从而达到消除用户查询词语义模糊性的目的。其次,本文提出了一种利用用户查询词语义主题聚类结果和WordNet通用本体建立一个用户查询词兴趣主题领域知识模型,即用户语义本体(User Semantic Ontology)的方法。该方法过程如下①根据用户查询词语义主题聚类结果,生成用户原始查询词-用户点击文档和扩展查询词-用户点击文档之间的形式背景,②优化扩展查询词-用户点击文档之间的形式背景,合并原始查询词和优化后的扩展查询词的形式背景,并构建概念格,通过概念格-本体转化的规则,将概念格转换为初始本体,③利用WordNet优化初始本体。该用户本体表达了一个用户的兴趣偏好,然后将其应用于主题搜索引擎,进而可以把信息采集从基于关键词的相关度匹配技术层面提高到基于语义层面的查找。最后,利用VC++6.0开发应用程序进行验证。实验表明,通过本文本体构建方法,用户查询词能更好的根据用户兴趣和知识背景来区分其真实语义,消除其语义模糊性。