【摘 要】
:
随着网络信息的飞速增长展,使文本信息大量增长,如何能在众多繁杂的文本信息、中准确的获得对自己有用的信息,文本自动分类技术成为了众多学者的研究对象,在众多分类算法中,
论文部分内容阅读
随着网络信息的飞速增长展,使文本信息大量增长,如何能在众多繁杂的文本信息、中准确的获得对自己有用的信息,文本自动分类技术成为了众多学者的研究对象,在众多分类算法中,支持向量机的坚实理论基础和较为良好的分类性能使之成为了当前的研究重点。本文以支持向量机为基础,对中文文本分类中的相关算法进行了深入的研究,并在这些算法的基础上实现了一个基于SVM的中文文本分类系统。通过对TFIDF特征加权的详细分析研究,针对它在加权过程中,只片面的考虑到特征词词频的大小和训练集的整体分布情况这两个缺点,提出了相应的改进方式,使该公式在加权的过程中考虑到了特征值在各个类别中的分布情况,以及在该类内各个文本之间的分布情况。在对SVM分类算法的深入研究的基础上,针对训练样本数目过大训练速度和分类速度较慢的缺点,本文提出了降低分类过程中的文本数量,从而加快训练支持向量机分类的速度。并采用了OPTICS密度聚类的方法来提取原始样本中对分类起决定性作用的样本点作为新的训练集进行分类器训练。通过对比准确率、查全率等性能指标对分类结果进行了评价,实验证明该分类器具有良好的分类结果,并有很大的使用价值。
其他文献
小型农田水利承担着农田灌溉和排水功能,为粮食生产提供基础性保障。但农村实行联产承包生产责任制后,村级组织对小型农田水利管理功能弱化,尤其是税费改革后小型农田水利工程管
目的研究前哨淋巴结切除术(SLND)对早期乳腺癌治疗的临床效果,为临床提供参考。方法 203例乳腺癌患者,按治疗方法分为前哨淋巴结切除术(SLND)组143例和腋窝淋巴结清扫术(ALND
丑角是闽剧中历史最为久远的行当之一,同时也是最重要、最受欢迎的角色。闽剧丑角所塑造的人物形象,大都有着平凡真实贴近生活的特点;同时平凡却不平庸,兼具复杂性立体感,是
汉语国际教育专业硕士学位培养目标是“适应国内外汉语教育教学环境的汉语国际推广工作、胜任国内外多种汉语教学的高层次、应用型、复合型专业教学人才”。由此可以看出汉语
黄土高原是我国乃至世界水土流失最为严重的区域。本研究在对黄土高原小流域综合治理方案分析的基础上,总结了黄土高原小流域综合治理规划的原则、方法与步骤。根据陕西省府谷
<正>到目前为止,许多一线教育工作者,包括一些专家、学者,对《小石潭记》从字词注释、写作背景、艺术手法等方面进行了许多有益的探讨,但其中一个关键细节却至今无人关注。文
目的观察对骨折患者术后便秘进行综合护理干预的疗效。方法 92例骨折术后便秘患者,随机分为对照组和观察组,各46例。对照组给予骨科常规护理,观察组给予综合护理干预。观察两
<正>我国人均耕地只及世界人均的1/3。随着经济建设的发展,人地矛盾日益尖锐,保证农产品有效供给和粮食安全的压力愈益严重。缓解矛盾采取的保护耕地、控制人口等综合措施中,
<正>教学设计是对自己整个教学过程的一种预设,一种方案,是课前对教学的理想化监控。教学细节是构成教学行为外显的最小环节,是教学行为的微观分析。语文阅读教学设计必须精
近十年来军事谍战文学发展非常迅速,小说和影视作品的大量出现成为当下文坛不可小觑的现象。本论文以当下军事谍战小说为研究对象,主要从文本自身魅力与外部语境探讨其兴盛原