论文部分内容阅读
数据挖掘是从海量数据中获取潜在有用信息的重要手段。聚类分析是数据挖掘中的一项重要内容,是人们认识和探索事物间联系的有效手段,它既可作为独立的数据挖掘工具,又可作为其他数据挖掘算法的预处理步骤,在各领域均得到了广泛应用,已成为数据挖掘研究领域中一个非常活跃的研究课题。随着数据挖掘技术的深入研究,群体智能也越来越受到研究人员的关注,作为其重要分支的蚁群聚类算法也备受学者们的青睐。蚁群聚类算法是受到蚂蚁群居生活的集体行为启示而设计的智能算法,体现了群体智能的分布式、鲁棒性、简单性、易扩展性、广泛的适应性等特点,而且其最大的优点是在聚类过程中无需设置聚类个数。
本文着重研究蚁群聚类算法,总结了现今蚁群聚类算法的主要分类,重点分析了基于蚂蚁化学识别系统的蚁群聚类算法(AntClust)的基本思想、算法步骤及其优缺点。针对AntClust的不足,本文首先提出了一种基于K-means的蚁群聚类算法KmAntClust。该算法将K-means算法思想引入到AntClust聚类算法中,改进AntClust算法聚类判断规则,不再使用Mi和Mi+作为归类依据,而是计算蚂蚁与巢中心的距离,从距离的角度判断蚂蚁是否应被踢出巢(即是否隶属于该簇)。在UCI数据集上的实验结果表明,KmAntClust算法比AntClust算法聚类效果好。接着,针对蚁群聚类算法大量采用随机搜索机制和K-means算法均会使聚类结果陷入局部最优的缺点,本文第二个工作就是提出应用SVM增强KmAntClust的全局搜索能力,从而得到全局最优的聚类结果。SVM是有导师且学习能力较强的机器学习方法,它能在给定有限样本的条件下取得问题的最优解。为了获得高质量的聚类结果,在KmAntClust聚类结果基础上,取类中心附近一定比例的数据作为训练集训练SVM,然后利用已训练得到的模型对数据集进行重新分类,使得聚类结果达到给定条件下的最优解。实验结果表明,该方法进一步提高了聚类质量。
本文提出将K-means和AntClust算法结合,利用K-means算法的高效性、直观明了性改进AntClust的聚类规则,并在此基础上引入分类方法SVM对聚类结果进行优化,使得聚类和分类算法得到有效结合,改善聚类效果;同时为聚类、分类算法的应用研究提供了新的思路。