基于上下文的视频多语义标注研究及实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhjie1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何对当前环境下海量的视频数据进行有效的检索和管理成为了多媒体技术领域的一个挑战。对视频添加语义标注是解决这个问题的主要方式,然而由于现实中视频内容复杂多变,而且视频语义的复杂性、模糊性和主观性使得低层特征和高层语义之间存在着“语义鸿沟”,导致现有的标注方法很难达到满意的效果。视频丰富的内容在语义上存在一定的关联性,在时间上也存在上下文关联性,因此,充分利用这两个特性将有助于缩小视频的“语义鸿沟”,提高标注的准确性,以满足海量数据检索和管理的要求。本文基于视频数据的时间和语义的上下文关联特性,对视频进行标注及优化,来解决现有视频语义标注过程中重复劳动多、效率低下和效果不佳的问题。完成的工作主要包括:一、提出一个基于视频内容上下文的多语义自动标注方法。该方法从视频层次结构信息和视频语义信息两方面进行标注,在结构上从上到下将视频、特征帧和图像区域构建成一个树模型;在语义信息上将划分好的区域根据训练好的分类模型转换为相应的文本标注。二、提出一个基于压缩域和和聚类的特征帧提取方法。本文是以现有视频基于聚类和基于压缩域的特征帧提取算法为基础加以改进,利用压缩域中I帧为中心进行聚类,然后根据帧之间的相似度重新计算聚类中心,以此得到视频特征帧帧,并根据聚类大小得到每个特征帧对视频的贡献度。最后通过实验证明此方法有很好的切分性能。三、根据视频的结构信息构建视频树模型整合视频标注结果。对于提取出的视频特征帧,进行区域划分,然后再将划分好的区域转为文本;然后再利用ImageNet2014数据集训练Caffe框架,以得到图像分类模型,将划分的区域利用Caffe进行检测,得到区域的对象概念。然后根据视频的垂直结构,构建视频树模型,得到初步的视频标注结果。四、提出了一个基于模糊图的视频标注优化方法。分析视频语义概念间的关联性,针对风景领域的视频数据,统计视频中对象概念出现的频率以及它们之间的关联关系,然后将概念间的关联关系构建语义模糊图,利用模糊图结合视频树模型对标注结果进行优化。本文所提出的基于上下文的视频标注方法是多语义标注的,即识别出视频中所包含的多个对象,很好的体现了视频内容的丰富性,解决了传统标注方法只分类为一个类型的问题。此外,本文所提出的三个方法中,都通过相应的数据集进行实验,并与当前现有的方法做对比,验证了本文方法的有效性。
其他文献
中国卒中发病率是全世界最高的国家之一,由于国家的高度重视,我国的脑血管病防治工作已初显成效,但脑卒中依然是我国成年人致死和致残的首要原因。因此,我国脑卒中的防治工作
明胶包裹单一活性药物的传统胶囊已经被广泛的应用于日常生活中,然而,传统口服胶囊的原料明胶来源鱼龙混杂、明胶包裹单一药物、胶囊爆发式释放模式等问题很难满足人们日益增
语音分离是一项从各种复杂的声学场景中提取出目标语音的技术。目前大多数主流的语音分离算法为有监督类算法,这类算法使用非负矩阵分解(Non-Negative Matrix Factorization,
音圈电机自适应光学系统通过测量波前畸变,调整变形镜面形,来实时校正波前相差,特别适用于大型光学/红外望远镜的地面层校正。音圈电机驱动时,需要位移传感器构成局部反馈回
热挤压3D打印技术具有能依据需求个性化外观制造和定制化营养配比的优势在食品领域备受关注。大米、小麦和马铃薯是居民膳食中的重要主食,其主要营养成分淀粉的消化、吸收和
智能交通系统(intelligent transportation system,ITS)能够产生两类典型的实时交通大数据:一类是GPS数据,另一类是车牌识别流式数据(automatic number plate recognition da
稀疏线性方程组的求解是许多科学计算任务和工程技术问题的核心环节。随着实际问题复杂度的增加,对稀疏线性方程组求解方法的优化研究显得尤为重要。已有的变量部分值相加的
铁电存储利用铁电薄膜的自发极化方向存储‘0’和‘1’两个状态,具有高密度、低功耗的优点,是非易失性存储领域长期关注的存储方案。近年来,随着薄膜制备技术的进步,铁电薄膜
从二维图像中获得三维信息并重构三维网格模型表示不仅是计算机视觉研究的主要内容,同时也是计算机图形学的重要应用。其中,从单幅图像重构三维人手模型在人机交互、计算机动
近期修改的《劳务派遣暂行规定》以及各地方出台的劳动方面法律法规解决了我国劳动法上长期以来存在的部分问题,但是对于劳务派遣方面的一些规定仍然过于原则化,尤其在劳务派