蚁群聚类算法的优化研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:xiaobaby2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据中获取潜在有用信息的重要手段。聚类分析是数据挖掘中的一项重要内容,是人们认识和探索事物间联系的有效手段,它既可作为独立的数据挖掘工具,又可作为其他数据挖掘算法的预处理步骤,在各领域均得到了广泛应用,已成为数据挖掘研究领域中一个非常活跃的研究课题。随着数据挖掘技术的深入研究,群体智能也越来越受到研究人员的关注,作为其重要分支的蚁群聚类算法也备受学者们的青睐。蚁群聚类算法是受到蚂蚁群居生活的集体行为启示而设计的智能算法,体现了群体智能的分布式、鲁棒性、简单性、易扩展性、广泛的适应性等特点,而且其最大的优点是在聚类过程中无需设置聚类个数。   本文着重研究蚁群聚类算法,总结了现今蚁群聚类算法的主要分类,重点分析了基于蚂蚁化学识别系统的蚁群聚类算法(AntClust)的基本思想、算法步骤及其优缺点。针对AntClust的不足,本文首先提出了一种基于K-means的蚁群聚类算法KmAntClust。该算法将K-means算法思想引入到AntClust聚类算法中,改进AntClust算法聚类判断规则,不再使用Mi和Mi+作为归类依据,而是计算蚂蚁与巢中心的距离,从距离的角度判断蚂蚁是否应被踢出巢(即是否隶属于该簇)。在UCI数据集上的实验结果表明,KmAntClust算法比AntClust算法聚类效果好。接着,针对蚁群聚类算法大量采用随机搜索机制和K-means算法均会使聚类结果陷入局部最优的缺点,本文第二个工作就是提出应用SVM增强KmAntClust的全局搜索能力,从而得到全局最优的聚类结果。SVM是有导师且学习能力较强的机器学习方法,它能在给定有限样本的条件下取得问题的最优解。为了获得高质量的聚类结果,在KmAntClust聚类结果基础上,取类中心附近一定比例的数据作为训练集训练SVM,然后利用已训练得到的模型对数据集进行重新分类,使得聚类结果达到给定条件下的最优解。实验结果表明,该方法进一步提高了聚类质量。   本文提出将K-means和AntClust算法结合,利用K-means算法的高效性、直观明了性改进AntClust的聚类规则,并在此基础上引入分类方法SVM对聚类结果进行优化,使得聚类和分类算法得到有效结合,改善聚类效果;同时为聚类、分类算法的应用研究提供了新的思路。
其他文献
近几年来,随着计算机技术和互联网技术的普及以及数据库技术的发展,各个应用领域的数据库中都积累了大量的数据,通过数据挖掘技术分析和理解这些数据,揭示其中隐藏的有用信息
学位
人脸作为图像与视频中最重要的视觉对象之一,提供了大量视觉信息,是人类进行身份确认最方便最直观的方式,因此一直是机器视觉领域的研究热点。在目前的人脸图像信息处理领域中,包
随着Internet的高速发展,网络信息已经由传统的以文字图片为主发展为以音视频为代表的多媒体信息。对于网络视频直播、文件下载等大规模数据传输,组播是一种理想的解决方案。但
信息系统自20世纪60年代问世以来,在各行各业得到了广泛而深入的应用。信息系统在我国大型企业中的应用已基本普及,在中小企业中的应用正逐步拓展。随着信息系统功能的日趋复杂
工作流技术是当前计算机应用领域和计算机信息技术领域迅速发展的一项新技术。基于工作流的管理系统已成为一种趋势,并逐渐成为软件开发的一个基础平台,特别是信息系统,工作流是
信息技术是现代企业赖以生存和发展的基础,在企业信息化的过程中,建立了大量的IT支持系统,由于历史原因这些系统形成一个一个的“信息孤岛”,企业应用集成技术面对这一问题孕
随着互联网的迅猛发展和广泛应用,网络中包含各种大量信息,例如人物实体与场所实体的关系、人物实体与人物实体的关系。然而这些信息并没有被有效的利用。如何从网络中挖掘出人
近年来,随着Internet 技术的迅速发展和Web信息系统的广泛应用,基于B/S 结构的多层Web 应用的体系结构正在不断的发展与完善,并逐渐发展成为企业级Web 应用的主流开发模式。但是
广西巴马县是世界五大长寿乡之一。影响巴马居民寿命的因素有哪些?这是国内外一直非常关注和致力于研究解决的热点问题。本文根据人工智能具有自适应、自组织、自学习,特别适于