论文部分内容阅读
随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。本文对数据挖掘技术,尤其是聚类分析进行了较为深入的研究与分析,并且针对聚类问题提出了一种改进的算法。本文主要完成以下工作:
本文在研究了基本蚁群聚类模型、经典LF算法以及引入了信息熵的LF算法的基础上,提出了新型自收敛的蚁群聚类算法(SCAC)。针对蚁群聚类算法聚类的精确度不高,并且对参数设置过于敏感的问题,本文首先对蚁群聚类算法提出两点改进方法:动态调整概率转换函数的阈值和设置蚂蚁搜索禁忌表。动态调整概率转换函数的阈值是指对概率转换函数的阈值随着运算进行调整,以达到不同阶段蚂蚁采取不同的拾起和放下概率的目的,提高聚类的精确率。设置蚂蚁搜索禁忌表是为了避免在同一次迭代中,蚂蚁重复对同一数据对象进行运算,减少算法运算的时间。最后本文提出一种自收敛模型。在改进的蚁群算法运算之后,对聚类结果作自收敛运算,能提高聚类的精确度并使蚁群算法降低对参数设置的依赖。
最后本文采用UCI的机器学习数据库中的标准测试数据进行实验,结果证明改进的蚁群聚类算法在运行时间,分类错误率,聚类的精确度上优于前期的蚁群聚类算法。