基于支持向量机的文本分类问题的研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户：sweetorange888

【摘要】

：

我们生活在信息爆炸的时代。从海量信息中迅速查找资源需要对信息进行分类,因此文本分类技术应运而生。文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判

【作者】

：

邸锦

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2008年期

【关键词】

：

支持向量机文本分类密度聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我们生活在信息爆炸的时代。从海量信息中迅速查找资源需要对信息进行分类,因此文本分类技术应运而生。文本自动分类是基于内容的信息自动分类的核心技术,它是由计算机自动判别文本类别的过程。文本分类问题具有文本向量稀疏性大、维数高、特征之间具有较大的相关性等特点,因此,支持向量机非常适合于文本分类问题,在文本分类中具有很大的应用潜力。同时,文本分类也给支持向量机提出了许多富有挑战性的课题。例如,文本分类具有类别和样本数目多、噪音多等特点,支持向量机用于文本分类时存在训练和分类速度较慢等缺点。本文从降低文本分类过程中文本向量数目的角度出发,来加快训练支持向量机分类的速度。采用密度聚类的方法提取原始样本中对分类起决定性作用的样本点作为新的训练集进行分类器训练。如果将常见的密度聚类算法直接拿来使用,效果并不理想,因为它们的时间复杂度太高,导致整体的分类训练过程效率比较低。本文采用一种改进的密度聚类算法,该算法融合了层次聚类算法的特点,既保留密度聚类算法对边缘点比较敏感的特性,又降低了算法的时间复杂度。同时,本文通过大量的试验得出了针对文本分类样本的高维性特点,在对其进行密度聚类时初始参数的动态设置方法,从而在一定程度上解决了以前只能通过人工估算来确定参数值时效率低、实际应用效果不佳的弊端。本文的主要工作情况如下:一、论文系统的介绍了文本分类的相关理论。研究对比了国内外研究较多、性能较好的分类方法(朴素贝叶斯、KNN、SVM),同时采用了文档型和词频型两种概率估计方法进行了对比实验。结果显示SVM是进行文本分类相对较好的方法。二、针对文本分类前期处理中的特征选择技术,分析了四种常用方法的缺点,并提出了基于类内频率的特征选择方法,通过实验对比说明该方法是一种性能比较好的特征选择方法,并且适用于以SVM作为分类器进行分类的方法。三、讨论了为何选取基于密度聚类算法应用到文本分类系统中,采用改进的密度聚类算法提取边缘点的方法,提出了在高维数据环境下对改进的密度聚类算法中两个初始参数进行动态调整的方法。四、采用改进的密度聚类算法提取边缘点,具体实现了基于支持向量机的分类方法。实验结果表明系统采用上述方法后,在不损失查全率及查准率的前提下提高了文本分类训练过程的速度。

其他文献

如何做好人性化护理管理的体会

随着社会的发展,社会各个层面都有了很大的进步,人的心里需求也发生了很大的变化,人们更多的体会精神方面的需求,而在医院里不论是医护人员或对患者都要从人的本身关怀做起,

期刊

人性化护理管理以人为本医护人员需求社会人的本身换位思考护士长护理原则医院患者观念病人

椎动脉型颈椎病牵引重量分析

椎动脉型颈椎病是颈椎病的一个综合症候群,由于颈椎不稳退变,骨质增生等原因.直接刺激压迫动脉或者由于刺激了颈椎关节囊、韧带和椎动脉壁周围交感神经引起的反射性椎动脉痉

期刊

椎动脉型颈椎病牵引椎动脉供血不足椎动脉痉挛颈椎不稳交感神经骨质增生刺激症候群关节囊反射性动脉壁综合退变韧带病症

肝硬化合并上消化道出血病人住院期间的健康教育

肝硬化上消化道出血病人大多是由于吃了粗糙的食物而引起的,这一疾病是可以避免的,只要向病人进行饮食的健康教育,如果病人自律性好,能够听从护士的指导,此病完全可以避免发

期刊

化合上消化道出血病人住院期间健康教育饮食自律性肝硬化发生率食物疾病护士

健康教育对静脉留置针效果的影响

目的:探讨健康教育对静脉留置针效果的影响.方法:我们时60例使用留置针的患者分为对照组和干预组,干预组进行了系统的健康教育,包括宣教、皮肤的观察、置管的护理、井发症干

期刊

健康教育静脉留置针

长托宁抢救氨中毒2例

1病例报告:2例患者均为女性,年龄31岁和28岁,冷冻厂工人,因邻厂氨气泄露,接触吸人氨气后出现眼刺痛、流泪、咽痛、声音嘶哑,双手及颜面部潮红,皮肤瘙痒,咳嗽、呼吸困难等.查

基于DSP的手机实时图像浏览平台的软件设计

随着现代通信技术的飞速发展,多媒体通信已经成为通信业务发展的必然趋势。传统的话音服务已经不能满足需求,图像信息传输已经成为现代通信系统所应提供的基本服务。图像处理

学位

图像处理实时WAPDSPBIOS

骨科手术患者的心理护理

手术是骨科疾病治疗的重要手段之一,认真做好骨科手术患者的心理护理,是骨科护士必备的要领,作为一名护士不但要有熟练精湛的护理技术,而且还要有一定的心理学知识,消除患者

期刊

骨科护士手术患者心理护理主观能动性心理学知识增强信心疾病治疗护理技术情绪健康恢复

神经根型颈椎病非手术疗法的护理体会

随着现代生活和工作节奏的加快,颈椎病作为一种常见病,严重影响人们的生活,引起社会的广泛关注,神经根型颈椎病在各型颈椎病中最常见,也是不易恢复的,根据笔者多年来总结.

期刊

神经根型颈椎病非手术疗法现代生活常见病总结社会节奏恢复

基于MPC8270的媒体网关硬件设计

随着信息业务的飞速增长，以IP为代表的数据业务量将大大超过话音业务量。从发展的角度来看，下一代网络是传统的以电路交换为主的PSTN网络逐渐向以分组交换为主的网络转移，它承载

学位

媒体网关硬件设计数据业务下一代网络异质网络通信处理器单片机

无线MIMO通信系统信道估计与信号检测理论方法研究

为适应未来发展的需要，移动通信系统要求能够支持高达每秒数百兆甚至千兆比特的高速分组数据传输。在频率资源日趋紧张的情况下，采用多天线发送和多天线接收的多入多出（MIMO）无线

学位

无线通信多入多出系统单载波分块传输单载波频分多址接入信道估计信号检测频域均衡移动通信系统

基于支持向量机的文本分类问题的研究

与本文相关的学术论文