面向案例推理的谱聚类算法

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:mijun123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
案例推理是一种发展较为成熟、利用过往知识解决具有高度相似特征问题,并学习解决方案的方法。在检索案例时,对于庞大的案例库,传统KNN检索算法在处理线性问题时,需要对所有案例进行匹配。因此,存在时间成本高、效率低的问题。为此,现在大多研究都是对整个案例库聚类,形成具有不同特征的类簇。谱聚类算法作为一种基于图论的聚类算法,不同于一般的聚类算法,它不仅对样本集的空间分布特征没有要求,同时聚类的结果还是全局最优,特别是样本集的空间分布特征为非凸型。但传统谱聚类算法的尺度参数是全局的,无法根据样本的空间分布特征实现个性化。此后,虽有许多改进的谱聚类算法,但大多数改进算法仍存在参数敏感、近邻值选取困难、易受离群点影响的缺陷等。针对上述研究存在的问题,本文主要做了以下工作:(1)针对谱聚类算法仍存在凭借经验选择近邻值,易受离群点影响问题,提出基于样本间夹角与模差改进的自适应谱聚类算法,该算法以样本间夹角的倒数作为尺度参数,利用样本间的模差作为辅助,充分利用数据在空间分布的特征信息,扩大不同类簇间元素权重的差异,实现高效聚类性能。最后在UCI公共数据集上的实验,证明本文基于样本间夹角与模差改进的自适应谱聚类算法性能好,鲁棒性高。(2)针对传统KNN算法在处理海量案例库时,计算量巨大且传统聚类算法对非凸型样本无法有效聚类的缺点。提出以基于样本间夹角与模差改进的自适应谱聚类算法实现聚类,并通过遗传粒子群混合算法求解目标案例在所属类簇中最相似的K个案例。最后仿真实验结果表明:针对线性问题,本文提出改进的KNN案例推理检索算法预测结果精度高,性能良好。(3)针对部分目标案例可能存在两个检索案例库的问题,提出最优原则检索策略。仿真实验表明:本文改进的KNN案例推理检索算法配合上最优原则检索策略后检索精度进一步提升,亦验证了该检索策略的有效性。
其他文献
当前,针对代码质量研究十分重要。基于源代码的代码质量分析技术一般借助于静态分析或动态测试方法对源代码进行度量,具有简单、易实现的优点,有助于代码质量的分析。随着开发者社区和代码托管平台成为程序员获取代码的主要途径,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含多种代码质量信息,基于用户评论的代码质量分析可以站在用户角度进行代码质量分析,从而帮助开发者在了解用户的代码使用情况和用户
数据驱动模式是材料基因组计划(MGI)的核心问题,但如何快速获取大量材料数据已成为需要解决的关键问题。目前,材料数据库的共享性较差,很难从公共资源中获取有效的材料数据。因此本文采用文本挖掘的方法从Al-Si合金材料文献中获取有效数据。自然语言处理(NLP)是一种常用的文本挖掘方法,关系抽取(RE)作为自然语言处理的主要任务之一,可以有效地从文献中提取信息。本文采用Al-Si合金实体关系联合抽取模型
随着人工智能技术的发展以及司法数据的公开,司法领域的人工智能研究与应用受到了广泛关注。罪名预测作为法律判决预测中一个重要子任务,它是司法智能辅助系统的重要组成部分。罪名预测任务根据案情描述和事实预测被告人被判的罪名。罪名预测通常被看作司法领域的文本分类问题,已有方法大多采用深度神经网络构建罪名预测模型,在常见罪名的预测方面取得了很好的效果。然而,已有研究对罪名预测任务中的数据不平衡现象关注较少,导
日冕喷流是太阳大气中普遍存在的太阳活动现象,对它的研究有助于揭示太阳大气中的能量传输和释放的机制。它往往发生在相对比较小的区域,和磁浮现和磁对消密切相关。如果能很好的把太阳大气中的喷流识别出来,特别是小的、弱的喷流,就可以清楚知道日冕喷流到底对太阳风加速和日冕加热起多大作用。在以往的研究中,喷流爆发的同时,会有耀斑或者日冕物质抛射的发生,所以对于日冕喷流的检测也有利于其他太阳活动现象的研究。随着科
随着互联网的飞速发展,P2P系统以其快速、可靠的性能越来越成为共享经济时代不可忽略的重要组成部分。而针对P2P信誉系统的女巫攻击通过注册大量节点与目标节点交互,利用不公平评价操控目标节点的信誉变化,对系统造成严重破坏。因此,如何有效抵御女巫攻击成为保障P2P系统稳定运转的重要问题。然而,现有关于女巫攻击防范的研究多侧重于对女巫攻击者操控的节点(女巫节点)进行探测,利用深度学习或者贝叶斯网络等技术将
我国矿产资源丰富,各式的矿物品种种类多、储量大。开采矿产资源不可避免的会破坏矿区的生态环境,导致滑坡等地质灾害。为预防灾害的发生,需要对矿区进行长期连续的监测。合成孔径雷达干涉测量(InSAR)技术被越来越多的应用到矿区的形变监测中。露天矿是一种特殊的土地利用单元,在矿区中往往形变梯度大、采区裸地多、人工地物少、矿区周边植被茂密,常规的时序InSAR技术能够获取矿区监测点的密度较低。引入分布式目标
近年来,红外与可见光图像融合在各种基于视觉的应用中具有重要意义,因此受到越来越多的关注。然而,现有的融合方法中,一般都要求输入的多张源图像和输出的融合图像的空间分辨率一致,这在很大程度上阻碍了这些方法在实际场景中的应用。并且,当源图像分辨率都较低时,得到的融合图像分辨率也会比较低,即所包含的信息不够充分。针对这些问题,本文提出了一种基于元学习的任意分辨率的红外和可见光图像融合网络,有效提高不同分辨
平行句对抽取是缓解低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。但是目前平行句对抽取的方法都是基于句子语义相似性度量,并没有考虑不同词语在句子中语义表征的难易程度,同时主要集中在句子级别,忽略了文档级上下文信息以及图像所包含的信息,提取到的句子语义信息不充分,抽取到的平行句对质量不高,导致了汉-越神经机器翻译(Neural Machine Translation,NM
服装作为电子商务涉及最早的品类,已经成为规模最大、发展成熟的行业。网上服装销售具有很多传统模式不具备的优势,可使用户充分享受网络购物的乐趣和互动体验。服装迁移技术作为虚拟试衣系统的核心技术,越来越受到人们的关注。然而,如何帮助用户快速准确地找到个性化的服装以及人工智能辅助服装设计逐渐成为难点。为了辅助设计师设计时尚服装,而且可为用户提供个性化的数字服装定制,本文提出了面向服装创意设计的风格迁移方法
老挝语是老挝人民民主共和国的文字,作为“一带一路”重要盟国的老挝,其研究意义重大,由于老挝语使用人口少,且数字化落后,故从网络直接获取老挝语文本语料较为困难,但存在大量老挝语文本图像,因此,如何从现有文本图像中准确识别老挝语字符序列用以扩充老挝语文本语料,成为目前老挝语自然语言处理研究重点之一。光学字符识别可有效提取文本图像所含字符,但目前老挝语文字识别研究寥寥无几,故本文参考相关文字识别研究,提