多模态学习理论与应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kangbb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的迅速发展,机器智能的感知、理解和推理能力也有了更深层次的要求。在现实世界中,数据经常以多个模态相关的形式存在。不同的模态中数据特征、统计特性等都不相同,而又密切相关、互为补充。这也使得进行多模态理论和应用研究具有重要的意义。多模态学习与任务场景紧密结合,涵盖了多样的理论方法和任务目标。本文首先介绍了多模态学习的基本方法,包括表示、映射、对齐、融合和联合学习五个方面,针对其中的基本理论方法,结合部分当前的研究热点做了总结和归纳。在具体的多模态学习的特征选择、模型构建中,依托于两个具体的任务:视觉问答和三维目标定位,介绍了其中利用数据特性构建多模态特征表示,并根据任务目标设计多模态学习模型的具体工作。本文致力于研究多模态学习任务中具体的理论方法和应用,使得模型能够有更好的表示能力和实现结果。在视觉问答任务中,提出了一个基于结构化语义表示方式的视觉问答模型。首先对图像进行语义解析,利用解析得到的语法树结构将句子分解成多个子部件。通过Tree-LSTM的计算,得到序列的结构化的语义表示方式。这种特征表示方式能够捕获更丰富的语义信息,不仅能够提高模型的表示能力,也能够与视觉问答过程中的推理机制相对应,强化其推理过程。同时,设计了一个双通道网络结构用于模型的训练和优化。基于新数据集的特性,我们利用补充图像,通过改变输入的方式,构建了正负样本。在一个通道中进行答案预测,得到的结果与另一个通道中补充图像进行二分类判决。在多分类问题的基础上增加二分类补充训练,优化其分类器,可以得到更优的模型参数。辅助手术是生物医学中非常重要的一部分。在手术仪器三维目标定位任务中,针对造成信息损失主要的遮挡、抖动等问题,提出利用光流场补充运动信息,通过多模态特征融合的方式强化视觉理解,从而提高目标的定位精度和算法的鲁棒性。这是一种多模态学习方法的应用。此外,在姿态估计中,根据我们的数据特性,利用神经网络通过预测得到的投影点回归预测匹配三维坐标点,在2D-3D匹配中可以优化姿态预测的结果。我们设计了一个多模态形式的端到端的三维目标定位框架结构,可以有较好的定位结果和实际应用。
其他文献
以酸水解制备的纳米纤维素作为催化剂制备次氯酸钠氧化淀粉,并将制备的氧化淀粉与不同添加量聚乙烯醇(PVA)/甘油(GL)共混,采用流延成膜法制备复合膜。通过红外光谱分析了复合
移动自组织网络(Mobile Ad-hoc network,MANETs)是一种由多个移动终端组成的无中心网络,由于它无需基础设施,且具有快速组网的能力,因此MANETs网络常被应用于军事、医疗、环
随着城市化进程的不断推进,流域下垫面和产汇流条件发生改变,自然水循环受到影响,城市面临着一系列雨洪问题,比如暴雨频发、内涝灾害和边坡失稳等,现有雨水管网系统规划设计不合理和雨洪管理政策的不完善是造成这些问题的两个重要原因。因此,设计经济、合理、高效的雨水管网和雨洪管理方案,对城市安全和可持续发展有重要意义。首先,分析研究区水文气象、地形地势、规划土地利用、排水体制等实际情况,建立SWMM模型,并且
随着平安城市建设理论的提出及我国城乡一体化的建设与发展,我国乡村治理的方式及治理机制面临着新的挑战,平安乡村治理应运而生。在新的形势下,优化乡村治理,提高乡村治理的有效性,是解决农村相关问题的策略和手段。当前,庄河市处在全面建设小康社会的攻坚阶段,加强平安乡村建设,促进农村区域经济的发展,是全面建设小康社会的重要任务。本文结合公共治理理论、协商民主理论、村民自治理论、依法治国和以德治国理论,为研究
在氯消毒过程中,水中的硝酸盐和溶解性有机物(DOM)会与消毒剂氯发生反应,生成含氮消毒副产物(N-DBPs),卤代硝基甲烷(HNMs)就是其中的一类物质。HNMs因其高毒性,尤其是致畸致癌致突变和细胞遗传毒性而受到了广泛关注。因此,本研究选取三种具有代表性的HNMs:一氯硝基甲烷(CNM)、二氯硝基甲烷(DCNM)和三氯硝基甲烷(TCNM)作为研究对象,探究在紫外/氯消毒条件下,硝酸盐生成三种HN
化学封顶是实现新疆植棉全程机械化的重要技术,能减轻人工劳动强度,降低植棉成本,解决人工打顶季节性劳动力紧缺、费工费时等问题。前人关于化学封顶对棉花冠层结构及产量形
一、农村信用社坚持合作制面临的困难和问题近年来,由于种种因素的制约和影响,部分农村信用社已偏离了合作办社的宗旨,"官办"色彩较浓,商业倾向重,原来的合作制金融组织形同