论文部分内容阅读
目前传统的信息检索技术己不适应日益增加的大量文本数据处理的需要,用户需要更加有效的检索算法实现文档重要性和相关性的排列,完成不同文档的分类比较,或找出多文档的模式和趋势。所以,文本数据的挖掘成为数据挖掘中一个日益流行且重要的研究课题。
文本挖掘中常用的技术有文本的自动分类、聚类、文本总结和关联分析等,其中文本自动分类是一种重要的方法。利用文本的自动分类技术可以用来整理互联网内部的文本,通过将文本分配到一个类别体系中,限定查找文本的范围;还可以应用到搜索引擎的检索结果的组织上,将搜索引擎的检索结果划分为若干个具有明确主题的簇,使得用户只考虑相关的簇,大大缩小了需要浏览的文本数量。
本论文主要探讨了文本自动分类的特征提取和分类算法,所作的主要工作如下:
1.研究了文本的特征提取方法,通过对互信息和χ2统计的研究根据其各自的缺陷,并对特征提取的方法进行了改进。
2.研究了如何利用粗糙集的知识约简理论提取文本分类规则的新方法,该方法可以自动提取分类规则,比人工建立规则库容易实现得多;
基于粗糙集理论的文本分类算法中,将文本特征项的权值作为规则的条件属性,文本所属的类别用作决策属性,构造决策信息表。首先将每一文本的每个特征项的权值进行离散化处理,然后通过知识约简提取出文本的分类规则。该方法生成的规则易于理解,分类准确度较高,分类的速度快。
最后,对本论文的内容进行了总结,并对文本挖掘的研究提出了展望。