基于稀疏优化的学习方法及应用研究

来源 :国防科技大学 | 被引量 : 1次 | 上传用户:leon7352
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集以及网络技术发展,各个领域获取数据较以往更加方便快捷,现在社会进入了大数据时代。数据呈现出了维度高、形式多样变化、结构复杂以及标注信息缺失等特点,为后续数据处理带来许多挑战。然而,数据本身在特征空间和维度空间上具有稀疏性,基于稀疏优化的学习方法是一种有效挖掘有价值信息的解决方案。从科学研究的角度,作为机器学习最重要的研究问题之一,稀疏优化方法及应用研究也具有重大理论意义和应用价值,富有挑战性。本文以稀疏优化理论为指导,综合运用矩阵理论、统计理论及机器学习等多学科领域知识,系统地研究了基于稀疏优化理论的网络重建、特征学习和多示例学习等典型问题。论文主要研究工作及创新点如下:1.针对不同类型学习问题,提出了基于重加权优化框架,并设计了不同凸性和光滑性条件下的快速优化方法,进而加深了不同应用需求的稀疏学习问题理解。通过对稀疏学习模型中各类优化问题间的区别与联系进行全面分析和总结,并将稀疏优化问题分为四大类,统一到重加权优化框架中,有助于全面分析基于稀疏优化的学习方法研究。通过对本文的优化问题总结分析,基于重加权优化框架提出了结构凸稀疏连续快速梯度下降方法、通用稀疏低秩约束重加权交替优化方法、非凸局部线性近似梯度下降方法以及加速分块坐标梯度下降方法等四种优化方法,并成功应用于求解本文提出的稀疏优化学习问题。2.针对结构化网络数据噪声问题,采用了稀疏信号重建思想和全变分正则自适应学习邻域结构,提出了基于稀疏全变分正则的鲁棒网络结构重建方法,增强了网络重建模型的噪声鲁棒性。通过稀疏信号恢复思想对网络结构重建问题构建数学模型,提出一种具有自适应邻域结构的鲁棒网络结构重建模型。该模型通过引入稀疏结构Elastic-Net惩罚项和全变分正则来自动捕获网络结构信息,快速识别节点的近邻结构。实验结果表明新方法的噪声鲁棒性显著优于传统重建方法。3.针对阿兹海默症基因风险因子检测问题,采用分层树状结构对数据本征结构进行建模,提出了基于稀疏共享树结构的多任务特征学习模型,并针对其模型结构设计了层次特征筛选规则,加速了学习模型训练效率,提高了复杂疾病因果变体的识别能力。针对传统学习方法对数据本征结构刻画不足,采用分层树状结构对数据本征结构进行建模,并由此提出一种基于稀疏共享树结构的多任务稀疏特征学习模型。该模型能够深入探索特征间的层次结构和多个相关任务的共性结构信息,进一步提升模型的学习泛化性能。另外,由于分层树状结构导致模型对于高维数据训练复杂度急剧增加问题,设计了一种有效的层次结构筛选规则。在模型训练开始之前对训练数据中不相关特征进行快速检测,同时剔除数据中的不相关特征,极大提升模型训练效率。实验结果和医学评估表明,本文的方法能够快速检测出阿兹海默症基因风险因子,发现复杂疾病相关的基因因果变体。4.针对数据噪声、标记信息不足以及标签错误等问题,提出了基于稀疏低秩模型的鲁棒判别特征学习方法以及基于非敏感稀疏回归模型的半监督特征选择方法,提升了算法在数据含噪与标签错误等开放环境下的适用性。首先,针对传统监督方法损失函数对噪声数据比较敏感,且不能很好重建复杂结构数据等问题,提出了一种基于标准化数据重建和稀疏低秩模型的鲁棒判别特征学习方法。通过联合最小化l2,1范数重建误差和类内距离来保留判别能力强的特征,自适应地校准每个类别和每个样本的噪声水平,提升算法噪声鲁棒性。然后,针对传统方法难以处理数据中标记样本少而大量未标记以及错误标记问题,通过标签传播方法为未标记样本学习软标签增强训练数据标签信息,随后基于capped l2-lp范数损失函数和l2,q正则项提出一种基于非敏感稀疏回归模型的半监督特征选择方法,进一步增强了噪声和错误标签的鲁棒性能。在人脸识别和视频语义识别领域的成功应用验证了算法有效性。并且在多个公开数据集上的大量实验结果表明,新方法在特征选择方面的性能优势。5.针对人类蛋白质编码异构体功能标注问题,设计了非凸多示例学习框架进行关键示例检测,并基于该框架提出了基于加权Logistic损失的多示例学习方法和基于加权Hinge损失的多示例学习方法,有效提升了人类蛋白质编码异构体功能标注水平,实际数据集验证了方法的有效性。针对传统多示例方法的最优分类面受正包携带的负示例干扰问题,通过为每个正包引入一个权重向量度量其示例对分类表现的贡献,自适应选择和识别正包中的关键示例,进一步提升分类模型的判别分析能力。随后,结合非凸稀疏约束与多示例学习构建了非凸多示例学习框架,不仅实现了对正包的关键示例检测以减小负示例的影响,而且能够同时对示例和包进行标签预测。另外,基于该框架提出了基于加权Logistic损失的多示例学习方法和基于加权Hinge损失的多示例学习方法。并基于重加权优化框架的加速分块坐标梯度下降方法对本文方法进行快速求解。最终,成功应用解决人类蛋白质编码异构体功能标注问题验证了本文方法的有效性。
其他文献
强流离子束在离子束驱动快点火、温稠密物质产生以及肿瘤治疗等领域有非常重要的研究价值。本论文采用数值模拟和理论分析的方法研究了超强激光与等离子体薄膜靶相互作用中强流离子束的产生及其在等离子体中的输运过程,主要研究内容如下:一、研究了激光辐射压加速中横向不稳定性的发展过程。当激光作用到调制靶表面时,横向不稳定性迅速激发,质子束密度出现周期性扰动。通过对质子平均面密度的傅里叶分析诊断了横向不稳定性的增长
点阵结构多功能设计是目前飞行器结构设计的重要研究方向,承载/阻尼一体化设计更是航空航天设备结构设计的难题。轻质点阵结构具有高韧性、抗冲击、吸声、电磁波吸收、有效隔热等优异性能,具有十分广泛的应用前景。在航空航天领域引起了许多研究者的关注。各国研究人员对点阵结构进行了广泛的研究。然而,目前的点阵结构优化算法与已有结构结合不足、异质三维点阵研究较少、异质点阵优化拓扑优化方法研究较少,严重制约了点阵结构
随着激光技术的不断发展,超强、超短的激光脉冲与原子、分子、凝聚态相互作用带来了很多新的物理现象。强场物理的研究为人们探测和调控物质的超快动力学过程提供了强有力的技术手段,具有重大的科学意义和应用价值。本文发展了经典轨迹蒙特卡洛方法和德布罗意-波姆力学分析方法,结合数值求解含时薛定谔方程,深入地研究了激光场作用下电子在库伦势和周期势中的超快动力学过程,主要内容由三部分组成:第一部分中,我们研究了太赫
保结构算法是微分方程数值算法的重要研究方向之一,其目的是构造数值积分保持连续系统的相应特征。一切真实的、耗散可忽略不计的物理过程都可以表示成Hamilton系统,它在自然界中有着非常广泛的应用。然而经典力学中研究的大部分系统都不是保守系统,所以很难将这类系统表示为经典的Hamilton力学形式以及最小作用量变分原理形式或者与此等效的Lagrange力学形式,极大地限制了保结构算法在耗散系统中的应用
原子分子在强激光场作用下,可以相干地发射处于极紫外到软X射线之间的高次谐波,也可以相干地发射处于毫米亚毫米波段的太赫兹波。同步探测高次谐波与太赫兹光谱(HATS)是研究原子分子中的电子结构以及强激光场下电子动力学的新型光学方法。由于太赫兹波与高次谐波在能量以及空间尺度上存在的五个量级的巨大差异,同步探测这两种辐射有助于加深对强场下电子运动过程的理解,实现辐射的原位调控。本文首先回顾了强场下的电子运
望远镜不仅是人类探索宇宙奥秘的重要科学工具,也是监测地球轨道、预警飞行器碰撞的守望者。但是大气湍流导致的波前畸变会导致大型地基望远镜的实际分辨率大幅下降,因此世界各大望远镜正竞相发展基于钠导星的自适应光学(AO)技术,以校正大气湍流导致的波前畸变。钠导星作为AO系统的信标源,其亮度是决定AO系统波前探测精度和响应速度的关键因素。尽管当前的钠导星亮度仍然限制着AO系统性能,科学家们已经开始研究下一代
基于格的密码体制作为后量子时代公钥密码体制的主要选择之一,受到了越来越多的关注。格中困难问题求解算法的有效性,在公钥密码体制的安全性分析中起着非常重要的作用。求解格中困难问题,需要设计相应的算法,而对格结构的深刻认识是设计出优异算法的前提。因此,研究格的结构、性质和格中求解困难问题的算法,具有十分重要的意义。本文的第一项工作是研究了计算格中最短向量的约化算法。对比了不同算法对同一个矩阵的不同度量参
燃气轮机具有功率密度高、运行平稳等突出优点,被广泛用做重大军事及民用装备的动力,其安全可靠运行至关重要。压气机、燃烧室、涡轮等气路部件是燃气轮机的主要故障源,对其实现有效的故障在线检测意义重大。与传统检测技术相比,基于静电传感的尾气异常颗粒监测技术具有较强的早期故障检测能力,得到了广泛关注。然而,该技术通常只依靠单个静电传感器,使得灵敏度分布不均匀、有用信息量不足,难以准确重构异常颗粒的数量及电荷
刚刚荣获辽宁省五一劳动奖章的宋秀锋平时很忙,采访从4月份开始联系,最终时间却确定在5月末一个周三的下午。他平均每天至少三台手术,每周二、周三上午还要出专家诊,再加上每天定时查房、会诊、急诊等,他的工作状态当真可以用"连轴转"三个字来形容。
期刊
随着超级计算机的迅猛发展,高性能计算技术面临着巨大的挑战。由于绝大部分计算机均使用浮点运算标准,在大规模问题中,减弱舍入误差对数值计算产生的影响显得尤为重要。本文以向前向后误差分析理论、动态误差分析理论、无误差变换技术和双倍双精度基本算术运算为基础,提出了几种基于多部分格式的补偿算法,包括商-差算法、Clenshaw-Smith算法、Barrio-Clenshaw-Smith算法、Horner算法