【摘 要】
:
聚类分析能够充分挖掘无标记样本的内部特征,在未知数据标签和数据分类个数的情况下,自主地将数据集中的数据划分为若干子集,是一种重要的无监督学习方法。目前,该方法已被广泛应用于与人类生活息息相关的多个领域,如决策制定、语音识别、模式处理等。对于聚类分析而言,选择好的聚类算法和合理的最佳聚类数(Optimal cluster number,Kopt)对最终的聚类结果都有着十分重要的影响。但现有的聚类方法
论文部分内容阅读
聚类分析能够充分挖掘无标记样本的内部特征,在未知数据标签和数据分类个数的情况下,自主地将数据集中的数据划分为若干子集,是一种重要的无监督学习方法。目前,该方法已被广泛应用于与人类生活息息相关的多个领域,如决策制定、语音识别、模式处理等。对于聚类分析而言,选择好的聚类算法和合理的最佳聚类数(Optimal cluster number,Kopt)对最终的聚类结果都有着十分重要的影响。但现有的聚类方法在解决以上两个关键因素时还存在着若干问题,主要表现为最佳聚类数Kopt无法确定,对离群点和噪声点较为敏感,统一处理全部样本点可能导致最终聚类质量不佳,聚类有效性指标(Cluster Validity Index,CVI)不能有效地评估任意形状的簇等。为了弥补一些现有聚类方法存在的不足,本文所做工作如下:1.将三支决策理论与K-means算法紧密结合,提出一种新的聚类算法TK-means。该算法在对数据进行聚类划分时将数据空间分为核心区域和边缘区域分别处理,有效解决了传统K-means算法对所有样本点统一处理造成聚类结果不准确的问题;同时,本文结合网格算法中划分网格的思想,利用网格密度快速确定核心点和边缘点,规避对所有样本点的计算从而提高算法效率,并结合密度法和轮盘法提出新的初始聚类中心确定方法;又针对不规则数据集的聚类效果差问题,本文提出核心点就近质心划分、边缘点就近核心点划分的原则,通过新的划分方式提高了对不规则数据集的处理能力。2.对核心区域和边缘区域分别评估,提出一种新的聚类有效性指标TCVI。该指标的提出有效避免了一些现有指标在评估聚类结果时将所有样本空间看成统一整体,放大了边缘区域可能产生的不良影响等问题。TCVI指标通过分析聚类结果的簇内紧致度和簇间分离度来度量其聚类质量。关于簇内紧致度的度量,该指标依旧基于三支决策理论,提出针对核心区域和边缘区域采用不同的计算规则;关于簇间分离度的度量,该指标提出利用核心区域的分离度代表整个样本空间的分离度,通过降低边缘区域的影响实现更加有效地评估聚类结果并确定最佳聚类数Kopt。3.为了验证本文提出的改进算法TK-means和新聚类有效性指标TCVI的有效性,我们在模拟数据集和真实数据集上进行了大量实验。通过实验证实了TK-means算法在聚类质量和常见聚类有效性指标的评估上都优于对比算法,TCVI指标在评估性能和稳定性上都优于对比指标。
其他文献
电磁带隙(Electromagnetic Band-gap,EBG)结构因其独特的电磁特性,受到了众多学者的广泛关注,结合EBG结构来进行天线设计成为了新一轮的研究热点。本文在先前EBG天线设计的基础上,重点研究了小型化和多频段EBG结构在天线设计中的应用,分别设计了多款小型化和多频带的EBG结构,并把它们应用在多频带、超宽带和MIMO天线的设计中。其中在双频天线的设计中,创新性的提出了新型嵌套型
随着全球经济迅速增长,甲烷(CH4)作为天然气的主要成分,已经成为生产生活中重要的燃料之一。但因其易燃易爆的特性,严重威胁生产和人身财产安全。此外,甲烷作为重要的温室气体,对加速气候变暖起着不可忽视的作用。因此,开展甲烷气体的高灵敏度检测方法和仪器研制具有重要的实际意义。当前,激光吸收光谱因其具有非接触性、快速响应和高灵敏度等优势,在气体检测领域得到广泛应用。直接吸收光谱技术作为广泛使用的光谱方法
随着半导体器件的特征尺寸的不断等比例缩小,由其构成的芯片尺寸也在不断减小,但是随之而来的是急剧增长的功耗密度。然而,传统的MOSFET器件因其导电机制,在室温下存在亚阈值斜率理论极限(60m V/dec),这使得以MOSFET器件为基础的芯片无法持续降低电源电压来降低芯片的功耗。所以具有低亚阈值斜率的超低功耗新型器件的研究十分重要。其中隧穿场效应晶体管因具有极低的关态电流、超陡的亚阈值斜率SS、与
语音是人与人之间最重要的交流方式,随着时代发展,语音也是人与机器之间重要的交互手段。但是在很多环境下,语音信号会被其他信号干扰,影响到沟通的效率及效果。所以如何有效地改善噪声环境中的语音质量具有重要意义。语音增强就是在噪声条件下提高目标语音信号质量和可懂度的基本技术。近年来,随着深度学习的发展,单声道语音增强算法取得了长足的进步。其中,循环神经网络由于可以天然地对语音的序列关系进行建模,成为了语音
行人重识别的主要任务是从图像或者视频序列中查找是否存在特定行人。在计算机视觉中行人重识别是比较热门的问题,在智能安防、无人超市、行为分析等众多现实场景下都有着一定的应用。在近几年,专家研究者们在行人重识别上研究成果显著,在常见数据集上取得了较高的准确率。由于实际环境的不确定性,会受到背景复杂、光照变化、运动模糊、不同视角、物体遮挡等因素的影响,行人重识别仍然是一个具有挑战性的课题。并且随着热红外、
智能网联车感知单元收集各项车辆有关的感知数据,数据处理单元对各项数据进行处理并快速决策,执行单元根据决策结果快速响应,各单元协同工作保障网联车的安全行驶。与传统车辆不同,智能网联车的安全行驶基于安全可信的内部模块和安全数据传输。在智能网联车行驶过程中,车辆需要向有关机构和服务提供商进行数据共享,通过多方协同工作保障整个智能交通系统的正常运行。智能网联车的内部模块面临被攻击的风险,并且多模块间的数据
随着CMOS技术节点按比例缩小逐渐走向终结,后摩尔时代新器件将影响和决定未来微电子器件技术发展和集成电路产业格局。传统Si O2栅介质厚度减薄已达到物理极限,其产生的量子隧穿效应极大程度上影响了MOS器件的稳定性及低功耗、高性能电子器件的研发。新型高介电常数(high-k)材料能够在保持或减小等效厚度的同时,能显著提高栅介质层的物理厚度来有效抑制隧穿电流的产生,因此其替代传统的Si O2已成为微电
人类探索太空取得的成就与集成电路技术密不可分,卫星、飞船以及星际探测器等航天器中的系统都是由集成电路实现的。处于宇宙中的航天器面临的辐射环境越来越复杂,因此对集成电路可靠性的需求也不断增加,同时芯片上晶体管的密集度随器件工艺的进步而增加,单粒子效应成为了航空系统失效的主要原因。锁存器单元也是芯片中不可缺少的部分,对其进行抗辐射加固可有效降低集成电路发生软错误的概率。本文以65nm CMOS工艺为基
由于云计算技术不断地完善与发展,云虚拟机资源的分配问题吸引了众多研究人员的关注。一些满足不同经济属性的云资源拍卖机制应运而生。然而,这些机制很少考虑云虚拟机分配过程中数据的安全性。一旦关键的信息被泄露,对于拥有该数据的公司或者组织可能会造成不可估量的损失。因此,隐私数据的安全性是云虚拟机分配过程中亟需解决的问题。安全多方计算技术能够在没有可信第三方的情况下,基于每个参与方的数据进行联合计算,同时保
近年来,一维(1D)纳米结构由于其独特的理化性质、优异的传输特性、大的比表面积以及良好的稳定性而受到广泛关注。以In2O3为代表的1D金属氧化物纳米材料已经被广泛应用于场效应晶体管(FET)的沟道层材料。同时,采用具有高介电常数的栅介质材料代替传统的Si O2栅介质薄膜不仅可以提升器件的电学性能,还可以降低FET器件的驱动电压和功耗。本论文通过简单有效的静电纺丝工艺制备了铟基纳米纤维以及ALD工艺