网络视频重标注的若干问题研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:qwerdfhkotfd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频标注是多媒体分析领域一个重要的研究方向。它通过为视频加上相关的文本标签,使得人们在进行视频内容分析时,可以借鉴本文处理中成熟的方法和技术,基于视频的标签实现海量视频的高效组织、管理和检索。网络视频是嵌入在互联网网页内,可以在线播放的视频。网络视频不仅数量巨大,类型和内容涵盖面广,而且还拥有普通网络用户上传视频时提供的原始标签(tag)。但是,这些标签不完整、不准确且没有次序,难以全面和准确地描述视频内容。此外,所有标签都是视频层(video-level)的标注,没有定位到标注对象所在的视频镜头(shot)和空间区域(spatialregion)。这些问题的存在不仅限制了视频检索等应用和服务的质量,而且不利于用户对视频内容的理解。在这种背景下,对原始标签进行全局质量优化,以生成更加完整准确有序标签为目标的标签优化研究,以及以将视觉典型标签定位到视频镜头和空间区域为目标的标签局域映射研究成为意义重大的科学问题。本论文将这些研究统称为网络视频的重标注(retagging)研究。   近年来,基于文本和视觉特征的网络视频重标注研究已经取得一定进展,但仍存在以下不足:(1)已有研究很少挖掘网络视频丰富的社会(social)特征以及视频模态外的其它网络资源;(2)面向网络视频的标签局域映射的重标注研究尚不多见。这两方面的欠缺制约了重标注生成标签的质量。   本论文针对上述问题,从社会特征的引入及其与文本和视觉特征的结合、多模态网络资源的挖掘和利用、网络视频人名标签与视频中人脸关联等方面着手对网络视频重标注中存在的问题展开系统研究,取得了如下研究成果:   1.基于社会特征的网络视频标签优化方法   针对网络视频原始标签质量不佳的问题,本文提出一种基于社会特征的网络视频标签优化方法,旨在通过融入社会特征,更好地从完整性、准确性和有序性三个方面提高标签的质量。该方法首先联合文本、视觉和社会特征寻找给定视频的邻居视频和邻居标签集合。然后在这一邻域内利用社会特征建模和计算标签相对于该视频的整体和个体显著性,并基于上述结果自适应进行标签优化。该方法可以生成更加完整准确有序,质量更高的标签序列,并在基于标签的视频检索和分类应用中分别获得相对于原始标签8.9%和13.4%的性能提升。   2.基于视频事件的网络视频标签优化方法   针对网络视频内容通常以具体事件为中心,而且网络上存在多种形式和模态关于视频事件报导(如文字、图像和视频报导)的事实,本文创新性地提出在视频事件级构造邻域进行标签优化的思想,实现了一种基于视频事件的网络视频标签优化方法。该方法首先利用文本和视觉特征重构给定网络视频事件的上下文,然后以此上下文作为查询,通过搜索引擎收集描述视频事件的多模态网络资源,进而基于这些资源进行标签优化。实验表明该方法显著提高了网络视频标签的质量,并在基于标签的视频分类应用中获得相对于原始标签16.2%的性能提升。   3.数据驱动的网络视频人名-人脸关联方法   人名标签对很多网络视频而言是描述视频事件的核心要素,实现人名标签与视频中人脸的正确关联有助于准确理解视频内容。本文通过挖掘视频结构、人物服饰、人脸特定区域的视觉一致性和人物社会联系,提出一种数据驱动的网络视频人名标签-人脸关联方法。该方法研究了基于视频结构和人物服饰的视频内人物半监督聚类方法、基于人脸一致性的视频间人名-人脸预关联方法和基于人物社区广义二分图匹配的人名-人脸关联精化方法,并基于此实现了网络视频人名-人脸的有效关联。20万网络视频上的实验证实了本文方法的有效性。
其他文献
当前,流媒体业务正变得日益流行。流媒体技术已经广泛用于新闻出版、证券、娱乐、电子商务、远程培训、视频会议、远程教育、远程医疗等互联网信息服务的方方面面。但是,近几
越来越多的P2P协议种类导致P2P流量占网络总流量的比重越来越重。这可能会对一些重要的网络应用产生不利的影响。针对这一问题,需要一套有效的P2P流量识别和分类系统,用于进一
基于内容的图像检索一直是计算机视觉、图像分析以及模式识别等学科的一个热点研究问题。近些年来,随着该理论的日益成熟,这项技术开始在信息检索、人脸识别、商标和知识产权保
随着中国证券市场的快速发展,中国股民的数量已经超过一亿。伴随市场的发展,各种股票相关信息日渐繁多。面对令人眼花缭乱的数据、变幻不定的市场行情,股民很难及时获取需要的信
嵌入式GIS作为嵌入式系统与GIS结合的新兴产物,目前在军事、测绘、导航等领域得到广泛应用。目前国内外对嵌入式GIS的研究仍然处于刚刚起步阶段,国内对嵌入式GIS研究的学术论
随着移动终端软硬件和无线网络传输技术的迅速发展,人们期望开发出种类更多、功能更强的移动应用软件,即移动增值应用。但从平台角度来看,Symbian、Windows Mobile、Android
伴随着通信技术以及计算机网络技术的发展,计算机网络已成为人们不可或缺的办公、娱乐方式之一。与此同时,网络规模日益壮大;网络复杂性日趋提高。传统的集中式的网络管理系统虽
眼动与注意是认知心理学研究的重要领域,他们可以看做是一种信息选择和对行为调节的内部机制,这个机制舍弃一部分信息以便有效加工重要信息,视觉搜索是对视觉选择性注意的运用,是
科学技术的不断进步给人们的生活带来了极大的便利。近年来,随着机器学习、人工智能以及新型传感器的发展,新的、更加人性化的人机交互方式层出不穷。字符是人类交流的主要工具
网络广告是当今互联网行业的生命线,是互联网行业的重要收入来源之一。通过网络广告的投放,可以有效地降低网站成本,使得网站更专注地提供质量上乘的互联网服务。网络广告推送投