论文部分内容阅读
随着人工智能技术的迅速发展,机器智能的感知、理解和推理能力也有了更深层次的要求。在现实世界中,数据经常以多个模态相关的形式存在。不同的模态中数据特征、统计特性等都不相同,而又密切相关、互为补充。这也使得进行多模态理论和应用研究具有重要的意义。多模态学习与任务场景紧密结合,涵盖了多样的理论方法和任务目标。本文首先介绍了多模态学习的基本方法,包括表示、映射、对齐、融合和联合学习五个方面,针对其中的基本理论方法,结合部分当前的研究热点做了总结和归纳。在具体的多模态学习的特征选择、模型构建中,依托于两个具体的任务:视觉问答和三维目标定位,介绍了其中利用数据特性构建多模态特征表示,并根据任务目标设计多模态学习模型的具体工作。本文致力于研究多模态学习任务中具体的理论方法和应用,使得模型能够有更好的表示能力和实现结果。在视觉问答任务中,提出了一个基于结构化语义表示方式的视觉问答模型。首先对图像进行语义解析,利用解析得到的语法树结构将句子分解成多个子部件。通过Tree-LSTM的计算,得到序列的结构化的语义表示方式。这种特征表示方式能够捕获更丰富的语义信息,不仅能够提高模型的表示能力,也能够与视觉问答过程中的推理机制相对应,强化其推理过程。同时,设计了一个双通道网络结构用于模型的训练和优化。基于新数据集的特性,我们利用补充图像,通过改变输入的方式,构建了正负样本。在一个通道中进行答案预测,得到的结果与另一个通道中补充图像进行二分类判决。在多分类问题的基础上增加二分类补充训练,优化其分类器,可以得到更优的模型参数。辅助手术是生物医学中非常重要的一部分。在手术仪器三维目标定位任务中,针对造成信息损失主要的遮挡、抖动等问题,提出利用光流场补充运动信息,通过多模态特征融合的方式强化视觉理解,从而提高目标的定位精度和算法的鲁棒性。这是一种多模态学习方法的应用。此外,在姿态估计中,根据我们的数据特性,利用神经网络通过预测得到的投影点回归预测匹配三维坐标点,在2D-3D匹配中可以优化姿态预测的结果。我们设计了一个多模态形式的端到端的三维目标定位框架结构,可以有较好的定位结果和实际应用。