论文部分内容阅读
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计聚类方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优。本文利用互信息定义了一种词相似度,在词相似度的基础上给出了词集合相似度的定义。基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果。实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的