基于多代表点的层次聚类算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:ji7zai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代社会随着信息技术的发展,数据量呈几何的方式快速增长,“信息爆炸”时代已经来临。随着信息的规模越来越庞大,数据的结构越来越复杂,信息的真伪越来越难以辨别,如何从中“挖掘”真正具有价值的信息已成为如今的研究热点。聚类分析属于数据挖掘的一个重要的研究领域,具有广泛的应用前景,如何提升聚类算法的性能具有重要的研究价值。本文对CURE算法的相关理论及方法进行阐述,并对该算法在样本抽取和代表点选取过程存在的一些不足提出改进建议,并对建议的合理性进行深入分析。本文的主要研究工作有:1)改进样本抽取过程。针对传统CURE算法通过随机抽样的方式获取样本集的不足,本文提出一种SCC-CURE算法。该算法从统计学的角度出发,将数据点的每个特征用一组独立随机变量表示,通过推导获得统计合并准则(SCC),并将其应用到CURE算法的样本抽取过程中,进而提出一种SCC-CURE算法。该算法通过设定独立随机变量的数目,来调整合并准则的阈值大小,进而可以控制选取样本集的规模,使CURE算法在样本集选取、样本集规模控制等问题上得到简化。实验结果表明:SCC-CURE算法能提高算法的运行效率,且具有较好的聚类效果。2)改进代表点选取过程。针对传统CURE算法在代表点选取过程中存在的不足,本文提出一种PIW-CURE算法。该算法在选取代表点时,通过考虑该代表点周边区域内数据点在簇中的整体影响作用,获得该代表点的分区影响权重(PIW),并通过实验验证PIW的正确性,依据PIW迭代调整代表点的选取,可以获得更加合理的代表点集合,使代表点能更准确的描述簇信息。实验结果表明:PIW-CURE算法能有效处理不平衡数据,能聚类任意形状的簇,总体性能优于其他比较算法。
其他文献
绩效管理是创新行政管理方式的重要举措。《中共中央关于全面深化改革若干重大问题的决定》指出,严格绩效管理,突出责任落实,确保权责一致。《国务院工作规则》规定,国务院及各部门要推行绩效管理制度和行政问责制度。从税务系统来看,全面实施绩效管理,是建设服务型机关、适应放管服改革大趋势的需要,也是推动管理转型、提升干部队伍内生动力的需要。税务系统绩效管理自2014年实施以来,从无到有,从粗放到精细,持续改进
低时延高可靠通信(Ultra-reliable and low-latency communication,URLLC)是ITU提出的5G三大应用场景之一,对通信过程中的时延和可靠性均有很高的要求,可以满足工业自动化、无人驾驶、远程医疗等应用的业务需求。以往通信系统主要关注通信速率和带宽的提升,而URLLC提出了新的指标需求,这为5G系统的设计与构建带来巨大的挑战。本文研究5G系统中低时延高可靠通
高随着卫星遥感影像技术的飞速发展,如何从遥感影像中提取所需信息并准确检测特定目标已成为当前研究的热点问题。传统目标检测方法通常采用手工方式提取特征来训练分类器,而如何提取典型与判别特征是提高目标检测精度的关键因素。作为一种具有大数据处理能力的深度学习模型,更快速区域卷积神经网络(Faster Region-Convolutional Neural Networks,Faster R-CNN)通过建
农业是一个我国的立国之本,也是国民经济中的基础产业和战略产业。不过,农业也是一个弱势产业,容易受到各种突发性、偶然性的自然风险影响,农业风险具有一些独特的性质,包括
深空一直是令人类着迷而又向往的地方,深空探索也一直是各国的战略重点之一。日益增多的深空探测活动,信息量巨大的地空对话,都需要一个可靠稳定的网络协议架构来支持。延迟/中断容忍网络(Delay/Disruption-Tolerant Network,DTN)就是当前应对深空通信的一种有效方案,LTP(Licklider Transmission Protocol)协议也随之诞生,基于BP/LTPCL的
吉林油田现用的污水处理工艺随着投运时间的推移,过滤后的水质无法达到回注标准,部分化学成分滞留在滤料中,使滤料过滤性能降低的同时污染滤料,具有极大的环保隐患。为了解决这一问题,本文对吉林油田新木采油厂油气联合站的含油污水处理工艺进行调研,找到联合站污水处理系统中存在的问题,给出合理化的解决方案,并针对滤料污染失效与反冲洗效果不好两个问题开展深入研究。本文首先利用实验法在实验室内和现场做了新购进滤料和
随着科学技术的不断发展,传统的单传感器线性滤波算法已经不再满足要求,人们更加重视基于实际的多传感器非线性系统的应用。实际系统中经常会表现出非线性、数据丢包乱序、噪声相关和由于传感器过多而导致的系统运行缓慢等现象。这些现象会导致多传感器非线性系统在滤波结算过程中出现大的估计误差,甚至出现滤波发散等问题。因此,带有相关噪声和丢失观测的非线性多传感器系统融合估计问题成为了估计领域中热点研究问题之一。本文
作为中华民族的优良传统,爱国主义是个经久不衰的话题。他是我们民族的瑰宝和重要的精神财富。古往今来,世界各国都十分重视爱国主义教育事业的发展。初中生作为中国特色社会主义事业的接班人,应当自觉继承并保护发扬本民族的优良传统,将爱国主义精神一直发扬光大下去。初中教育阶段也正是一个人正确三观初步形成的重要阶段,这就必然要求那些处在中学阶段的教育者们,根据初中生的心理、思想等特点,引导并教育他们学习爱国主义
随着SOC设计规模的不断发展,IP核被大量采用。HASH算法IP核被广泛集成于SOC芯片的安全模块中,保护着芯片的信息安全。而随着电路复杂性的日益提高,验证的难度也大大增加。验证作为芯片开发的重要一环,占据整个SOC研发周期的一半以上。高效的验证不仅能够保证芯片功能的正确,而且能够提高芯片开发效率,降低开发成本。随着验证技术的发展,UVM方法学的优势逐渐体现。基于UVM的验证平台具有很高的规范度和
随着科学技术的发展,传感器在各行各业的应用中发挥着越来越重要的作用。光纤传感器因其高灵敏度、抗干扰能力强、稳定性高、测量速度快、信息容量大等独特优势被广泛应用在航空航天、生物医学、环境监测等领域,成为传感领域的热门研究课题。本文首先介绍了光纤传感器的工作原理与发展概况、常见光纤传感器的分类以及不同调制方法的原理。其次,简要分析了光纤的模式理论,以麦克斯韦方程组为出发点,介绍了电磁波的波导方程和亥姆