基于主动学习的半监督谱聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liuln6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是用于数据分析的最常应用的技术之一,其应用领域涉及统计学、计算机科学、生物学以及社会学等。传统的聚类算法如常见的K-means算法,EM算法等都是建立在凸状分布的样本空间上,当样本空间分布不为凸时,算法就会陷入局部最优,因而此类算法不适合在任意形状分布的样本空间上解决聚类问题。近些年来,谱聚类算法作为一种新颖的聚类方法受到广泛的关注,并成为了机器学习、模式识别等领域的研究热点。谱方法建立在谱图划分理论基础上。与其他传统聚类技术相比,它能够在任意分布形状的样本空间上进行聚类,并且最终能够收敛于全局最优解。谱聚类算法在聚类过程中,通过特征向量构建更加简化的样本数据空间,这样不仅降低了样本数据的维数,而且还使得样本数据的分布结构在子空间内更为清晰和明显。半监督聚类是指在聚类过程中,利用样本先验信息去指导聚类过程以获得更好的聚类效果。与无监督聚类相比,半监督聚类利用少量的监督信息去指导聚类过程。而半监督聚类算法的性能取决于监督信息。因此,监督信息的选取非常关键。本文首先介绍本课题的研究背景和意义,以及当前谱聚类的研究状况,接着具体介绍了数据挖掘和聚类分析的相关理论,然后着重介绍了谱聚类的相关理论,并对其优势和面临的问题做出分析,最后介绍了本文的研究内容及贡献:①针对半监督聚类的性能取决于所提供的监督信息这个问题,本文构建了一种新的选取成对约束信息的主动学习策略,该策略在聚类过程中主动的选取信息含量丰富的成对约束信息。其主要思想就是:找出同一类中距离远的数据对象对,记为Must-link;找出不同类中距离近的数据对象对,记为Cannot-link。②构造了一种基于主动学习的半监督谱聚类算法,就是在聚类过程中,利用主动学习策略选取得到的成对约束信息,来调整数据对象之间的距离矩阵,使得同一类中各个数据对象分布尽可能紧凑,不同类之间的数据对象分布尽可能分散。通过在UCI数据集上的实验可以证明本文算法的有效性。
其他文献
组播以其节约网络带宽、降低网络负荷,实现接收者的并行接收等优势而具有广泛的应用,成为重要的网络技术。对于组播各种应用的研究正在成为热点,对组播各种功能及性能的测试
随着USB3.0标准的发布,数据传输速率大幅提高,存储容量不断增大,USB接口的移动存储设备由于其体积小,携带方便,同时具有热插拔功能,给移动数据存储带来了便利。开源的Linux操
随着Internet技术的广泛应用,家庭网络迅速普及,DSL逐渐发展为宽带接入技术的主流,更多的网络终端设备如机顶盒、家庭网关等被部署到网络中。网络终端设备自身的复杂性和业务
近年来,嵌入式系统的发展非常迅速,多功能的图形化嵌入式手持终端成为一个热点研究领域。由于手持终端通常都是在移动的环境中运行,传统的机械硬盘完全不能满足其需求。而Fla
目前,多媒体在各个领域都有着自己重要的作用,比如说体育事业,新闻事业甚至于到家庭等领域,而多媒体技术的发展更推动了它的推广和使用。这样同时也就产生了数量浩大的视频数
知识处理是信息技术发展的必然趋势,随着对知识应用要求越来越高,传统的知识库系统已经不能满足新的需求。而得益近几年语义网(SemanticWeb)的迅速发展,构建起了一套比较规范的
随着视频监控应用的广泛发展,网络视频监控系统逐渐成为视频监控领域的主流。为了在有限带宽下高效传输符合质量要求的视频图像,联合视频工作组JVT(Joint Vedio Team)在2003
汽车轮毂自动识别系统主要是研究了一种机器视觉系统,这种系统能够识别流水生产线上不同款式、不同型号的多种汽车轮毂。这种识别系统的优势在于:非接触性、在线实时性、高精
在当今信息爆炸的时代,海量数据不断涌现,而且这些数据仍在以每三个月增长一倍的速度持续增长着。因此,如果不借助有效的信息挖掘方法,这些异构海量数据将可能最终变成无人关
近年来,软件的可信性问题再度引起广泛关注,航空、核工业、电信、金融、电力和交通等国家重要领域的信息化程度日益提高,国家基础设施的运转越来越依赖于大型分布式软件系统,