论文部分内容阅读
聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。