搜索引擎检索结果聚类方法的研究与改进

来源 :燕山大学 | 被引量 : 0次 | 上传用户:xukuikui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,现有的搜索引擎虽然采用各种方法来提高检索结果的精度,但相关文档和不相关文档仍然相互混杂,给用户带来了负担。将搜索引擎返回结果进行聚类,将其分成若干个簇,同一簇内文档相关度尽可能的大,不同簇间文档相关度尽可能的小,这样将大大缩小用户所需浏览的结果数量,从而缩短用户查询所需要的时间。首先,本文在特征项的抽取过程中,在短语层次上采用词典识别与统计方法相结合的方式,这样既可以识别常用词汇,又可以识别专业术语、缩略语、临时用语、新出现的用语等等往往不会在词典之中的词汇。对索引结构进行改进,文档的顺序表与倒排表共同作为索引,以使其更加适应对搜索引擎返回结果的聚类。其次,给出一个快速聚类算法HPMC。在此方法中首先计算返回结果之间的相似性,然后使用层次聚类法产生初始种子点,利用k-means与Single pass相结合的算法进行聚类形成基类,通过合并基类最终得到聚类结果。最后,对HPMC算法从时间复杂度、空间复杂度、聚类质量、聚类数目的形成、对孤立点的敏感程度等几个指标做了评估,并与已有的算法进行了比较。
其他文献
客户是电信运营商的战略资源,由于发展一个客户的成本是保持一个客户成本的三到五倍,所以,在大力发展客户的同时,预防现有客户流失越来越受到电信运营商的重视。客户流失分析就是
随着多媒体应用领域的不断拓展和网络通信的日益普及,层出不穷的网络业务,诸如:IP电话、网络会议、视频点播、远程医疗、网络课堂等多媒体应用服务,对互联网络提出了更高的要求。
MD5作为在计算机安全领域常用的哈希函数,其安全性接受着极大的考验。在我国的密码学专家王小云教授提出模减差分攻击有效攻破MD4,MD5,SHA-0等一系列哈希函数之后,MD5攻击取
随着企业之间竞争的加剧,信息快速、准确的传递变得越来越重要了。车间的管理在企业中占据了越来越重要的地位。如何有效地管理车间,使信息能快速有效的传递,已成为信息管理
随着网络信息资源的急剧膨胀,如何从中抽取出潜在的、有价值的信息,进而充分有效地利用Web信息资源,是当今信息领域重要又极具挑战性的研究课题。而对Web社区发现的研究具有
超分辨率技术可用于将监控视频中多幅低分辨率车牌图像合成一幅高分辨率车牌图像,达到增强图像质量的目的。在图像增强领域,超分辨率重建已成为一个热门研究课题。重点研究了
随着计算机技术的不断发展,个人电脑的处理能力及存储能力都有了显著提高,与此同时,宽带接入也随着接入技术的不断完善迅速在互联网用户中普及,这些技术进步促使了在视频会议领域
J2EE是公认的最好的平台,不仅在于它具有JAVA很好的跨平台的优势,更因为J2EE定义了一整套规范的技术标准,如JSP,SERVLET,EJB等。研究如何在此平台下开发好的软件系统是很有意义的,
嵌入式GIS软件是最新的GIS开发技术,也是GIS的一个主要技术发展方向,目前在国内外日益得到广泛的应用。本论文研究的目的是以基于嵌入式GIS技术,结合GPS和个人掌上电脑(PDA)开发的电力移动巡检系统来说明嵌入式GIS在信息管理系统中的运用。该系统由桌面管理、移动巡检和数据转换三个部分组成,实现了对电力巡检信息的采集、传输和查询,巡检任务的拟订、派发和巡检人员的管理。通过运用嵌入式GIS,提高
Web应用框架是支持Web应用开发的重要软件复用技术,旨在提高开发效率,增强系统的可重用性、健壮性和可伸缩性。目前的Web应用框架大都侧重封装底层的技术细节,复用粒度较小,在可