基于支持向量机的文本分类问题的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sweetorange888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在信息爆炸的时代。从海量信息中迅速查找资源需要对信息进行分类,因此文本分类技术应运而生。文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判别文本类别的过程。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性等特点,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文从降低文本分类过程中文本向量数目的角度出发,来加快训练支持向量机分类的速度。采用密度聚类的方法提取原始样本中对分类起决定性作用的样本点作为新的训练集进行分类器训练。如果将常见的密度聚类算法直接拿来使用,效果并不理想,因为它们的时间复杂度太高,导致整体的分类训练过程效率比较低。本文采用一种改进的密度聚类算法,该算法融合了层次聚类算法的特点,既保留密度聚类算法对边缘点比较敏感的特性,又降低了算法的时间复杂度。同时,本文通过大量的试验得出了针对文本分类样本的高维性特点,在对其进行密度聚类时初始参数的动态设置方法,从而在一定程度上解决了以前只能通过人工估算来确定参数值时效率低、实际应用效果不佳的弊端。本文的主要工作情况如下:一、论文系统的介绍了文本分类的相关理论。研究对比了国内外研究较多、性能较好的分类方法(朴素贝叶斯、KNN、SVM),同时采用了文档型和词频型两种概率估计方法进行了对比实验。结果显示SVM是进行文本分类相对较好的方法。二、针对文本分类前期处理中的特征选择技术,分析了四种常用方法的缺点,并提出了基于类内频率的特征选择方法,通过实验对比说明该方法是一种性能比较好的特征选择方法,并且适用于以SVM作为分类器进行分类的方法。三、讨论了为何选取基于密度聚类算法应用到文本分类系统中,采用改进的密度聚类算法提取边缘点的方法,提出了在高维数据环境下对改进的密度聚类算法中两个初始参数进行动态调整的方法。四、采用改进的密度聚类算法提取边缘点,具体实现了基于支持向量机的分类方法。实验结果表明系统采用上述方法后,在不损失查全率及查准率的前提下提高了文本分类训练过程的速度。
其他文献
随着社会的发展,社会各个层面都有了很大的进步,人的心里需求也发生了很大的变化,人们更多的体会精神方面的需求,而在医院里不论是医护人员或对患者都要从人的本身关怀做起,
椎动脉型颈椎病是颈椎病的一个综合症候群,由于颈椎不稳退变,骨质增生等原因.直接刺激压迫动脉或者由于刺激了颈椎关节囊、韧带和椎动脉壁周围交感神经引起的反射性椎动脉痉
肝硬化上消化道出血病人大多是由于吃了粗糙的食物而引起的,这一疾病是可以避免的,只要向病人进行饮食的健康教育,如果病人自律性好,能够听从护士的指导,此病完全可以避免发
目的:探讨健康教育对静脉留置针效果的影响.方法:我们时60例使用留置针的患者分为对照组和干预组,干预组进行了系统的健康教育,包括宣教、皮肤的观察、置管的护理、井发症干
1病例报告:2例患者均为女性,年龄31岁和28岁,冷冻厂工人,因邻厂氨气泄露,接触吸人氨气后出现眼刺痛、流泪、咽痛、声音嘶哑,双手及颜面部潮红,皮肤瘙痒,咳嗽、呼吸困难等.查
随着现代通信技术的飞速发展,多媒体通信已经成为通信业务发展的必然趋势。传统的话音服务已经不能满足需求,图像信息传输已经成为现代通信系统所应提供的基本服务。图像处理
手术是骨科疾病治疗的重要手段之一,认真做好骨科手术患者的心理护理,是骨科护士必备的要领,作为一名护士不但要有熟练精湛的护理技术,而且还要有一定的心理学知识,消除患者
随着现代生活和工作节奏的加快,颈椎病作为一种常见病,严重影响人们的生活,引起社会的广泛关注,神经根型颈椎病在各型颈椎病中最常见,也是不易恢复的,根据笔者多年来总结.
随着信息业务的飞速增长,以IP为代表的数据业务量将大大超过话音业务量。从发展的角度来看,下一代网络是传统的以电路交换为主的PSTN网络逐渐向以分组交换为主的网络转移,它承载
为适应未来发展的需要,移动通信系统要求能够支持高达每秒数百兆甚至千兆比特的高速分组数据传输。在频率资源日趋紧张的情况下,采用多天线发送和多天线接收的多入多出(MIMO)无线