论文部分内容阅读
近年来,随着深度学习的发展,视频数据的价值得到了极大的提升,其中尤以深度目标检测方法的应用最为广泛。目前,基于深度目标检测的方法正在不断地应用到各种传统领域,如智慧农业和传统媒体行业等。然而,在这些领域应用深度目标检测方法时会因为领域和环境等的约束出现方法迁移困难、准确度低、实时难以保证等问题,如在智慧农业中应用目标检测进行精确禽畜活体计数时难以满足实时性要求,在传统媒体行业应用目标检测方法对视频进行自动拆条时会出现方法迁移困难和准确度低等问题。针对上述问题,本文分析比较了当前主流的深度目标检测方法,并以禽畜计数和视频智能拆条为例深入研究了特定应用领域下的深度目标检测应用的构建方法,其主要工作如下:(1)针对智能农场基于视频分析的禽畜自动计数难以同时满足实时和精确计数的问题,提出了一种基于两阶段深度目标检测的实时计数框架。该框架利用禽畜计数时活体移动的特点对视频帧进行过滤,然后通过两阶段目标检测方法对禽畜进行实时检测和精确计数。首先提出了重叠度(ODF)的概念,该概念用于过滤低价值的视频帧,然后实现了基于ODF的端到端帧过滤算法,最后在剩余帧上执行两阶段深度目标检测并进行计数。该计数框架通过帧过滤极大地减少了计算量,同时保证了极高的准确度,可以同时满足禽畜计数的实时性和精确度要求。实验结果表明,所提出的禽畜计数方法检测速度约为40帧/秒,总计数偏差为1.69%,可以同时满足智能农场禽畜计数时实时性和准确性的要求。(2)针对传统媒体行业中视频自动拆条的需求,提出了采用深度目标检测思想进行视频(新闻)自动拆条的方法。与通过转场等人工特征的检测来进行自动拆条的传统方法不同,所提出的方法基于端到端的学习机制自动提取并组合特征来进行自动拆条。为了加快处理速度,首先采用预训练的Inception v3对视频数据进行粗粒度的帧编码(1024维/帧),然后采用深度残差网络对编码后的帧序列数据进行候选拆分点的分类预测,最后采用深度残差网络对候选拆分点进行回归形成最终的拆分点。此外,为了提高回归预测的准确度,提出了对帧数据进行聚类形成候选分割点,并将其拓展为额外的数据通道进行回归点计算的方法。实验结果表明,所提出的视频智能拆条方法检测速度约为30帧/秒,准确度为78%,可以作为视频拆条的重要辅助工具。