论文部分内容阅读
随着Internet的大规模发展和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在。这样,文本挖掘(Text Mining)作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于挑战的研究方向。
神经网络是一种常用的数据和文本挖掘工具,其在文本挖掘的应用中通常采用的是Kohonen网络,但在实际应用时必须考虑的一个问题是由于文本特征向量维数太大,造成网络规模过大和训练时间过长。考虑到文本的高维特征,本文提出了两种文本挖掘算法:一种基于WMI值(words mutualinformation)的统计降维和Kohonen网络(SOFM网)相结合的文本聚类方法和一种新的基于Markov链的统计降维和Kohonen网络相结合的文本分类方法。基于wMI值的方法侧重考虑文本特征项之间的互信息进行降维,基于Markov链的统计降维方法利用文本特征词条之间存在的大量冗余性进行降维,无论是用于聚类的降维算法还是用于分类的降维算法都大大提高了特征选择的效率,并极大地提高了聚类和分类的精度。