基于关键字的搜索引擎搜索结果中文网页分类研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:liz302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,搜索引擎的应用越来越广泛。为了提供高效、准确的信息服务,我们需要对搜索引擎的结果信息进行合理的组织与分类。本文的目标就是以Web文本信息处理为背景,从理论及应用两个层次对Web文本信息的聚类、分类方法进行了较为深入的研究。 论文首先介绍、分析传统的文本分类和聚类算法的原理和特点。然后在现有技术的基础上,初步设计实现搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页分块,网页消重与净化,完成了系统整体设计;然后对于不容易分类的HTML网页,提出一种新的基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后,在实验获得了部分参数条件下,构造中文文本分类器,并编程实现,通过实例测试分类器性能。 论文的重点是在文本聚类指导下的分类模式的提取。与传统分类器不同,我们在缺乏类信息的情况下,采用聚类替代领域专家的人工分类获得类信息,为构造分类器提供合适的类信息特征提取,取得了较好效果。聚类部分,采用较为适合基于网页摘要聚类的显著短语级别聚类算法,并从理论角度对这种算法的优点进行论证。分类部分,论文分析了文本分类采用的朴素Bayes分类器和支持向量机技术的原理和优点,对一种具体的SVM方法—SMO训练方法进行了研究并利用实例进行验证。 本论文提出的基于摘要和聚类指导的中文Web网页分类器设计方案,提出了基于改进的Luhns摘要方法和有“指导”摘要的混合摘要方法,实验了在不同的网页摘要的压缩比例情况下,分类器对摘要实验效果,其分类的准确结果优于Web全文分类的准确度。
其他文献
本文介绍了一个基于数据库的具有语义访问功能的逻辑文件系统的设计,并以办公文档为例,具体介绍了如何以Oracle9 iFS为平台实现这个逻辑文件系统。 首先给出了课题背景和
在各商业银行提供的实时外汇买卖业务系统中所采用的汇率是以一种实时在线到达的、易失的、无限的方式获得的数据流。由于各种原因,在这个数据流中经常会出现一些异常片段。
随着网络应用的普及和网络技术的发展,信息技术的应用模式发生了很大的变化,新技术的应用带来了多种的网络连接方式,网络的规模也越来越大,计算机网络管理越来越重要。如何对
随着信息时代的到来和计算机网络技术的飞速发展,在分布式环境下,如何进行有效的数据挖掘成为信息科学研究领域一个新的课题。分布式数据挖掘是使用分布式计算技术,从分布式
随着互联网的发展,人们对在互联网上进行图像检索,尤其是基于内容的图像检索的需求越来越大。从20世纪90年代初起,基于内容的图像检索(CBIR)就成为多媒体技术应用的研究热点。由
地震勘探一般分为三个阶段:地震数据采集、地震数据处理和地震数据解释。野外采集的地震数据需要经过一定的方法进行处理,最后才能对地层构造进行准确的解释。在整个过程中,地震
本论文的研究内容是从结构的角度,通过在进化过程中相对保守,并且相互作用的结构域(domain)来描述蛋白质的相互作用。为此我们首先基于序列相似性的比较对生物序列数据进行了同
数据挖掘是数据库最活跃的领域之一。由于其广泛的应用背景和现实意义,数据挖掘技术的研究和应用都获得了突飞猛进的发展,在国内外的学术界和信息产业界备受关注。 数据挖掘
随着嵌入式Internet 的发展,嵌入式Web 服务器已被越来越广泛的应用到信息家电、网络视频监控、工业自动化等领域。嵌入式Web 服务器也逐步成为嵌入式研究领域的一个热点。开
流媒体技术是一种新型的网络多媒体技术,它把多媒体数据压缩技术,数据流调度策略以及网络数据传输控制技术有机地结合起来,使用户可以在下载数据的同时就可以进行观看,大大地