基于半监督判别分析的迁移学习算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:hahabiaoren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统机器学习的本质是高级的统计应用,要求训练数据和测试数据具有相同的概率分布。这个前提限制了机器学习的发展,直到迁移学习的提出。迁移学习的思想是把已学习到的知识应用到相关领域来帮助目标任务的完成,并且不要求数据同分布。随着人类社会迈入人工智能时代,更接近人类自身学习的迁移学习能够更有效地处理现实中的庞杂数据,具有重大的研究价值。本文主要对迁移学习方法进行研究,以判别分析为理论基础,根据目前研究成果,提出两种不同的迁移学习算法。首先,传统实例迁移学习方法估计分布参数比较困难,泛化效果较差,针对该问题提出一种基于正则化判别分析的迁移学习算法。在线性判别分析的基础上引入高斯核及正则项,改进为半监督的高斯核判别分析,在不考虑类条件概率密度分布的同时,更适用于处理现实数据。基于该方法构建判别空间,对源域中可重用数据进行迭代筛选,有效避免对分布参数的估计。另外为了避免过拟合现象的发生,一方面构造伪标记数据以辅助筛选,使标记数据的类别信息和未标记数据的分布信息得以充分利用。另一方面,在筛选过程中定义距离度量和指示矩阵,可有效选出距离目标域数据最近的源域数据。为验证该算法的有效性,使用20Newsgroups等数据集进行实验,结果表明迁移的正确率和学习模型的泛化能力得到有效提高。其次,大多数特征迁移学习方法只注重域间共有特征,忽略各域独有特征,针对该问题提出一种基于稀疏局部判别分析的迁移学习算法。在线性判别分析的基础上,结合稀疏的局部保持投影,改进为新的半监督特征提取方法,充分利用样本数据的局部结构信息和全局监督信息。使用该方法建立源域和目标域的子空间,在保持各域特有特征的同时,有效提取域间最优的共享特征。为了避免过高的运算复杂度,采用对齐子空间的方式来减小域间的差异,从而实现知识的迁移。为证明该算法的有效性,使用COIL20等数据集进行实验,结果显示出更好的迁移性能。
其他文献
随着我国高速铁路的建设,高速铁路逐渐成为人们出行的主流交通方式之一,这也对高速铁路的运输组织提出了更高的要求。高速铁路列车停站方案在很大程度上反映了高速铁路的服务水平和铁路运输能力的配置,为了满足旅客的出行需求,保证铁路和社会的效益,对高速铁路列车停站方案进行研究和优化具有重要的意义。本文系统的阐述了列车停站方案和可达性的理论知识和背景,并在二者涵义的基础上提出了高速铁路列车停站方案的可达性。在建
近年来,大气污染日益严重,其中臭氧污染尤为突出,臭氧污染会对人们身体健康和生态环境产生危害。作为治理大气环境污染的首要步骤,实时监测和有效预测大气污染物的变化对环境保护工作和人们的日常生活具有十分重要的意义。目前国内气象站的测量仪器体积庞大、维护困难且数据展示繁琐,针对上述问题,本文设计了一套大气污染物监测预警系统,并构建基于改进遗传粒子群优化(GA-PSO)算法的BP神经网络臭氧浓度预测模型。大
随着城市轨道交通的高速发展,其规模和客流复杂程度与日俱增。客流在时间和空间上的不均衡会导致轨道交通网络运输供需能力不平衡,当这种不平衡达到某种临界状态就会在网络中产生客流瓶颈。因此,对网络瓶颈的系统性研究是保障客运安全和提升客流组织水平的关键。首先,本文从轨道交通网络及客流特性、瓶颈形成机理和控制方法三方面对轨道交通瓶颈控制问题进行概述。其次,从瓶颈产生的本质入手,对城市轨道交通网络供需能力及其关
随着市场环境的变化,企业组织也在不断地面临新的挑战。企业为了在竞争中不被淘汰且保持自己的竞争优势,就需要不断进行创新,这就使得企业员工面对的工作要求越来越多,员工的压力越来越大,在高负荷、高工作压力的情况下,员工为了更好更快的完成工作任务,会根据自己的动机、技能主动对自己的工作任务进行再设计与再分配,这也就是工作重塑。员工根据自己的动机、技能主动对自己的工作内容进行设计的一个过程就是工作重塑,它能
香榧(Torreya grandis‘Merrillii’)属裸子植物红豆杉科(Taxaceae)榧树属(Torreya),是榧树优良变异类型经人工嫁接繁殖的栽培品种的总称。香榧种实富含各种营养物质及生物活性物质,其中角鲨烯和β优谷甾醇含量较高,具有抗氧化、抗炎、降低胆固醇、抗肿瘤等药用价值。但香榧后熟过程中角鲨烯和β-谷甾醇的含量变化及其生物合成和调控机制目前仍不清楚。因此,本试验拟通过研究不同
随着我国航空航天事业的发展,利用遥感技术准确、快速地获取地理空间信息逐渐成为一种主要的获取方式。本文围绕基于深度学习的高分辨率遥感影像崩滑体语义分割主题,在系统查阅了国内外遥感影像语义分割方法及崩滑体识别的相关文献基础上,针对传统遥感影像分类方法难以取得更好的分类效果,而深度学习在自然图像分类上取得突破性进展的情况,将深度学习中的语义分割任务、高分遥感影像信息提取和崩滑体识别结合起来,进行了研究尝
目前,数据中心存储容量逐年增加,能耗消耗也在逐年提高。虽然对于节能存储研究也一直在继续,但是节能存储技术仍然面临着许多问题。首先,能量节省与可靠性的对立面难以打破;
CNN pruning is a well-known process that is highly recommended in the optimization of neural network performance such as reducing computational costs of neural networks.Nowadays,pruning approaches fol
光学合成孔径成像技术是一种通过增大系统口径来增加成像分辨率的有效方法。与传统单块镜成像系统相比,合成孔径成像系统的各子镜之间往往存在一定的间隙,这就造成其所成的像
随着全球一体化进程不断加快,城市经济迅猛发展,城市群逐渐成为表现国家之间、区域之间竞争力的重要部分,辽中南城市群作为辽宁省的经济龙头、东北振兴的先行区,具有重要研究意义。而随着信息技术不断成熟,城市间关系也更加复杂,基于各种要素流数据的城市网络成为当下城市群的研究热点。因此本文基于多元流数据构建辽中南城市群的企业网络、信息网络和交通网络,通过复杂网络分析揭示辽中南城市网络空间格局的网络节点特征和网