论文部分内容阅读
我们生活在信息爆炸的时代。从海量信息中迅速查找资源需要对信息进行分类,因此文本分类技术应运而生。文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判别文本类别的过程。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性等特点,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文从降低文本分类过程中文本向量数目的角度出发,来加快训练支持向量机分类的速度。采用密度聚类的方法提取原始样本中对分类起决定性作用的样本点作为新的训练集进行分类器训练。如果将常见的密度聚类算法直接拿来使用,效果并不理想,因为它们的时间复杂度太高,导致整体的分类训练过程效率比较低。本文采用一种改进的密度聚类算法,该算法融合了层次聚类算法的特点,既保留密度聚类算法对边缘点比较敏感的特性,又降低了算法的时间复杂度。同时,本文通过大量的试验得出了针对文本分类样本的高维性特点,在对其进行密度聚类时初始参数的动态设置方法,从而在一定程度上解决了以前只能通过人工估算来确定参数值时效率低、实际应用效果不佳的弊端。本文的主要工作情况如下:一、论文系统的介绍了文本分类的相关理论。研究对比了国内外研究较多、性能较好的分类方法(朴素贝叶斯、KNN、SVM),同时采用了文档型和词频型两种概率估计方法进行了对比实验。结果显示SVM是进行文本分类相对较好的方法。二、针对文本分类前期处理中的特征选择技术,分析了四种常用方法的缺点,并提出了基于类内频率的特征选择方法,通过实验对比说明该方法是一种性能比较好的特征选择方法,并且适用于以SVM作为分类器进行分类的方法。三、讨论了为何选取基于密度聚类算法应用到文本分类系统中,采用改进的密度聚类算法提取边缘点的方法,提出了在高维数据环境下对改进的密度聚类算法中两个初始参数进行动态调整的方法。四、采用改进的密度聚类算法提取边缘点,具体实现了基于支持向量机的分类方法。实验结果表明系统采用上述方法后,在不损失查全率及查准率的前提下提高了文本分类训练过程的速度。