论文部分内容阅读
随着网络上的信息总量不断扩大,Web搜索引擎往往返回了大量与用户需求无关的搜索结果,增加了用户的浏览负担。一种有效的解决方法是对搜索结果进行聚类,形成若干具有特定主题的类,并对每个类提取能描述其大意的类标签对用户的查询过程进行引导,帮助其快速浏览及准确定位信息,这样将会大大减少用户查找自己所需要的结果的时间。
本文针对Web搜索结果聚类方法进行了研究。Web搜索结果聚类必须既满足实时性要求又保证好的聚类效果,因此在选择聚类算法时,必须同时考虑聚类时间和聚类质量两方面的要求。本文首先改进了一种结合k-means的层次化的Web搜索结果聚类方法,新方法首先利用凝聚层次聚类方法确定初始聚类中心,再结合k-means方法对Web文档进行聚类划分。
为更好地适应Web搜索结果聚类的客观性要求,使聚类结果更客观真实,针对聚类搜索引擎的特点,给出了一种基于信息熵的自适应搜索结果聚类方法,该方法采用投票机制确定初始聚类中心,引入信息熵理论来自动确定聚类类别数目,再根据相似度对搜索结果进行聚类划分。
在分析Web搜索结果的数据特点上,论文给出了改进的多方位加权函数权值计算方法,预处理过程中采用了合并词形成短语的方法来弥补分词软件的不足,进一步提高聚类效果。实验证明其有效的。
最后,设计了一个Web搜索结果聚类仿真平台,并对下一步研究工作进行了展望。