论文部分内容阅读
随着Internet的迅速发展,搜索引擎的应用越来越广泛。为了提供高效、准确的信息服务,我们需要对搜索引擎的结果信息进行合理的组织与分类。本文的目标就是以Web文本信息处理为背景,从理论及应用两个层次对Web文本信息的聚类、分类方法进行了较为深入的研究。
论文首先介绍、分析传统的文本分类和聚类算法的原理和特点。然后在现有技术的基础上,初步设计实现搜索网页分类系统,包括:关键字搜索结果网页类型判断方法,网页分块,网页消重与净化,完成了系统整体设计;然后对于不容易分类的HTML网页,提出一种新的基于摘要的网页搜索结果聚类和基于学习的网页搜索结果分类器设计方法。最后,在实验获得了部分参数条件下,构造中文文本分类器,并编程实现,通过实例测试分类器性能。
论文的重点是在文本聚类指导下的分类模式的提取。与传统分类器不同,我们在缺乏类信息的情况下,采用聚类替代领域专家的人工分类获得类信息,为构造分类器提供合适的类信息特征提取,取得了较好效果。聚类部分,采用较为适合基于网页摘要聚类的显著短语级别聚类算法,并从理论角度对这种算法的优点进行论证。分类部分,论文分析了文本分类采用的朴素Bayes分类器和支持向量机技术的原理和优点,对一种具体的SVM方法—SMO训练方法进行了研究并利用实例进行验证。
本论文提出的基于摘要和聚类指导的中文Web网页分类器设计方案,提出了基于改进的Luhns摘要方法和有“指导”摘要的混合摘要方法,实验了在不同的网页摘要的压缩比例情况下,分类器对摘要实验效果,其分类的准确结果优于Web全文分类的准确度。