论文部分内容阅读
基于内容的图像理解和视频解析是计算机视觉领域的一个基本问题,与多媒体计算、人工智能、自动控制等领域紧密相关。其中,图像相关的经典任务有图像分类、图像区域分割、人脸识别和图像关键词标注等,视频相关的任务包括目标识别、目标跟踪和目标分割等。一般来说,一个好的计算机视觉算法需要具备有效的表达模型、一致的理论基础,以及高效的推理计算方法。尽管过去的文献提出了大量理论与算法,但由于语义鸿沟的存在和数据的复杂性,上述问题仍然存在着巨大的挑战。因此,需要针对具体的应用进一步扩展与增强现有的模型、理论和算法,并在公开的数据集上评测其性能。这些研究按照其理论基础不同,可以归纳为以下三个方面。首先,基于子空间学习理论,提出了非负图一致算法的统一解,并从数学上证明了它的正确性与收敛性。子空间学习是机器学习和计算机视觉中的重要理论和学习工具,而图结构是图像与视频算法中最常用的表达。图一致理论表明,现有的大多数子空间学习算法均可以归纳为以图结构作为表达的统一形式,而将图一致理论扩展到非负分析框架中,可进一步地增强子空间的判别能力。新提出的优化过程基于更新迭代式,可用作统一的解平台,求解大多数现有的非负数据分解问题。基于非负图一致理论与相关的解平台,进一步提出了三个新的算法,包括:1)基于映射转换的非负分解算法,用于高效地求解新的测试样本在新的子空间中的低维表达;2)非负关联同分解算法,首次将非负分析、矩阵分解与多特征学习整合起来,为计算机视觉问题提供了一种强有力的多模学习算法;3)基于非负分解的图像标注修复算法,在非负框架下研究图像标注的修复问题。在多个基准测试平台上的对比结果表明,这些算法可以达到甚至超过现有最优的算法。其次,扩展稀疏编码理论并将其应用于高层图像任务。稀疏编码是信号处理与计算机视觉领域的一个基础理论,具有完备的理论分析,但大多层视觉或者样本结构比较清晰的任务。为了处理更复杂的图像任务,需要引入带有结构的先验模型。具体地,为了高效地标注图像的语义区域,提出了一种新的双层稀疏编码先验和一个双向标签传播算法;为了充分利用互联网上的大规模在线图像库,提出一种基于双层稀疏编码的图像标注算法;为了有效地利用样本的自然属性,提出一种新的正值互斥正则化项,为稀疏编码算法引入正值互斥先验,可用于多类的半监督分类任务。在各自的公共数据集上的对比测试表明,这些新的理论与算法都超出了现有的最优算法。第三方面是关于贝叶斯概率模型与采样推理的研究,处理包括轨迹跟踪、目标定位和分类等在内的视频解析任务。主要的创新性贡献包括:在视频表达方面,提出了一种基于时空图的视频表达模型和一种基于多种特征的混合对像模板;在模型方面,构造了一种统一的产生式模型,用于整合多种先验及场景知识,描述视频内容;在推理计算方面,开发了一种新的基于数据驱动的随机块采样推理算法和一个基于匹配追踪技术的学习算法;在系统方面,实现了一个完整的视频监控系统,提供包括目标识别、背景建模和目标跟踪等结果在内的轨迹解析,并在最新的基准数据集上评测相关算法的有效性。