论文部分内容阅读
如何对当前环境下海量的视频数据进行有效的检索和管理成为了多媒体技术领域的一个挑战。对视频添加语义标注是解决这个问题的主要方式,然而由于现实中视频内容复杂多变,而且视频语义的复杂性、模糊性和主观性使得低层特征和高层语义之间存在着“语义鸿沟”,导致现有的标注方法很难达到满意的效果。视频丰富的内容在语义上存在一定的关联性,在时间上也存在上下文关联性,因此,充分利用这两个特性将有助于缩小视频的“语义鸿沟”,提高标注的准确性,以满足海量数据检索和管理的要求。本文基于视频数据的时间和语义的上下文关联特性,对视频进行标注及优化,来解决现有视频语义标注过程中重复劳动多、效率低下和效果不佳的问题。完成的工作主要包括:一、提出一个基于视频内容上下文的多语义自动标注方法。该方法从视频层次结构信息和视频语义信息两方面进行标注,在结构上从上到下将视频、特征帧和图像区域构建成一个树模型;在语义信息上将划分好的区域根据训练好的分类模型转换为相应的文本标注。二、提出一个基于压缩域和和聚类的特征帧提取方法。本文是以现有视频基于聚类和基于压缩域的特征帧提取算法为基础加以改进,利用压缩域中I帧为中心进行聚类,然后根据帧之间的相似度重新计算聚类中心,以此得到视频特征帧帧,并根据聚类大小得到每个特征帧对视频的贡献度。最后通过实验证明此方法有很好的切分性能。三、根据视频的结构信息构建视频树模型整合视频标注结果。对于提取出的视频特征帧,进行区域划分,然后再将划分好的区域转为文本;然后再利用ImageNet2014数据集训练Caffe框架,以得到图像分类模型,将划分的区域利用Caffe进行检测,得到区域的对象概念。然后根据视频的垂直结构,构建视频树模型,得到初步的视频标注结果。四、提出了一个基于模糊图的视频标注优化方法。分析视频语义概念间的关联性,针对风景领域的视频数据,统计视频中对象概念出现的频率以及它们之间的关联关系,然后将概念间的关联关系构建语义模糊图,利用模糊图结合视频树模型对标注结果进行优化。本文所提出的基于上下文的视频标注方法是多语义标注的,即识别出视频中所包含的多个对象,很好的体现了视频内容的丰富性,解决了传统标注方法只分类为一个类型的问题。此外,本文所提出的三个方法中,都通过相应的数据集进行实验,并与当前现有的方法做对比,验证了本文方法的有效性。