论文部分内容阅读
基于意图的信息检索研究如何针对用户查询意图进行检索结果的提交,是信息检索智能化的一个热门课题,具有重要的发展前景。本文针对意图信息检索中的网页内容获取和基于意图的网页聚类进行研究。主要工作如下:1.元搜索引擎平台的搭建本文首先设计并实现了一个对多个搜索引擎检索结果的信息进行抓取和结构化存储的元搜索引擎,为进一步获取检索结果数据奠定基础。2.基于VIPS(VIsion-based Page Segmentation)原理的REBVIPS(Regular Expression Based on VIPS)算法模型本文基于VIPS技术提出了一种利用正则表达式建立视觉页面同标签属性关系矩阵的网页内容获取算法REBVIPS,实现了网页的结构化抓取模式,同时通过对属性标签的分析实现了网页噪声干扰处理。实验表明,该方法具有较好的网页内容获取性能。3.基于TR(Topic Rank)相似意图网页聚类本文在总结现有网页意图分类标准和人工评测模型的基础上,采用TR特征进行面向网页意图的聚类分析。其中包括:(1)分别采用k-均值和k-中心聚类算法,分别考察了采用TR特征与采用一般序列特征的聚类性能。实验表明,基于TR特征的聚类比基于通常特征聚类具有更好的意图聚类性能。(2)比较了所采用的聚类算法中的距离度量对于意图聚类的影响。通过实验,分析了闵可夫斯基距离度量中p范数对于聚类结果的鲁棒性影响。