论文部分内容阅读
本文针对垃圾邮件包含较多干扰信息,导致文档相似度度量效果较差的问题,将Needleman—Wunseh算法引入到文本相似度计算中,并针对性地提出一种高效的聚类算法,为反垃圾邮件系统提供了一种有效的垃圾邮件鉴别技术。与传统的仅基于知网、基于语义等聚类算法相比,本方法在算法效率和聚类质量上都有很大的改进。