论文部分内容阅读
随着大数据时代的到来,不同模态类型的数据比如文本、图像、视频、音频等在互联网上飞速增长。这些多模态数据从多个不同的角度描述着同一个事件,其中的互补信息使人们对事件的认知更加全面。为了更好地利用多模态数据,人们尝试对多模态数据进行建模处理,各种行之有效的多模态学习算法随之被提出,并涌现出了很多热门的多模态数据研究领域,比如跨模态检索等。目前在多模态深度学习中存在的问题是:多模态数据存在着噪声标签或者标签缺失的情况,且人工验证代价高昂,这样迫切需要可以有效利用噪声标签进行多模态学习的方法;另外,现有的多模态数据相关性挖掘方法主要集中在单层次的挖掘,这往往仅能捕获部分的层次关联,这就需要一种更全面的多层次相关性挖掘算法来捕捉不同模态数据间的复杂相关性。因此,本论文重点研究如何利用多模态数据集噪声标签进行有效的多模态学习,以及如何多层次深度挖掘多模态数据相关性并将其应用到跨模态检索系统中。首先,针对多模态数据集存在的噪声标签问题,我们提出了一种噪声标签清洗、预测方法。该方法的网络主体结构包括图像嵌入子网络、文本嵌入子网络、融合网络层、非线性映射层等,并采用弱监督方法,利用多模态数据集中存在的部分准确标签学习从多模态内容特征空间到标签语义空间的映射关系,再用来对噪声数据标签进行清洗与预测,最后为了验证所提网络的有效性,还设计了一个基于多模态数据的分类网络,通过分类结果判断噪声标签的处理效果。实验结果表明,相对于现有方法利用部分准确标签进行微调,提出方法在Pascal Sentence数据集上分类准确率可以提高3.5%左右。接下来,本论文提出了基于多模态数据的多层次相关性挖掘方法MLCM(Multilevel correlation mining),并将其应用到跨模态的检索系统中。通过构建多层次相关性学习网络,在不同模态数据的不同特征层间进行相关性挖掘,弥补以往只在某一层低层特征空间或者高层语义特征空间进行相关性学习的不足。另外,在跨模态检索系统中,我们还利用前面提出的网络学习方法,利用标签信息的语义知识指导模型来进行训练与学习,这样充分挖掘了多模态数据模态间的相关性和模态内的相关性。实验结果表明,与现有算法MCNN相比,提出的方法在Flickr30k数据集上,image retrieval的R@10检索指标提升1.2%左右,Sentence retrieval的R@10检索指标提升2.6%左右。本论文研究并实现的多模态数据标签清洗预测网络及多层次相关性挖掘算法,可广泛应用于多模态数据集的噪声标签处理及跨模态检索系统中。