论文部分内容阅读
人物行为识别是计算机视觉领域研究的基础任务和关键技术之一,被广泛应用于智能视频监控、高级人机交互、视频会议、基于行为的视频检索以及医疗诊断等。因此,研究人物行为特征描述方法并进行行为识别具有理论意义和实际应用价值。论文针对实际场景中由于运动目标和背景复杂带来的行为描述和后期识别困难问题,展开了动态场景下的人物行为识别研究。其主要工作创新体现在:1)针对复杂和动态背景容易造成兴趣点误检,影响检测精度的问题,提出了基于显著图和阈值矩阵的兴趣点检测方法(SMTM-IPD)。该方法使用显著图模型来提取出视频中前景人物目标区域,对区域内外使用不同的阈值来降低背景兴趣点个数,有效保留人物附近兴趣点。在KTH和UCF数据库的实验对比表明,提出的方法可以很好地降低背景影响,突出前景的目标,并能解决单一阈值造成的兴趣点全局增减的问题,有效地减少了背景兴趣点从而降低了误检率。2)针对人物行为姿态多变,噪声干扰大,运动幅度变化不一等情况,提出了一种融合多特征的视觉单词生成方法(3DSH)。该方法融合了3D-SIFT和HOOF特征,具有3D-SIFT特征的尺度不变性和抗噪性,可以很好地描述姿态多变,尺度不同的行为,又具有HOOF特征对全局运动信息的描述,能很好地解决运动幅度变化不一的问题。与现在比较流行的7种视觉单词生成方法的实验对比表明,相对于流行的局部特征视觉单词生成方法,提出的方法在简单行为的KTH数据集上的平均识别率相对于比较的7种方法提高了7.7%,在复杂动态的UCF行为数据集上的平均识别率相对于比较的4种方法提高了14%。3)针对现有LDA主题模型在单目标人物行为识别参数推导过程中没有考虑相同视频中不同视觉单词和不同视频中相同视觉单词之间存在的概率关系导致了识别精度不高的问题,提出了基于TMBP模型的人物行为识别方法。该方法根据信息传递的思想把LDA模型表示成因子图,以一定的概率将每个视觉单词索引赋予各个主题,在参数推导过程中保留所有的后验概率信息,并且在视频处理中的视频、视觉单词和行为标签与文本处理中的文档、单词和主题分别一一对应,因此主题模型的方法完全可以很好地应用于视频处理中。实验对比表明,将TMBP模型引入到视频中,可以有效地提高人物行为识别的准确率。4)针对多目标行为识别时,人物非刚体、姿态变化影响匹配精度的问题,提出了一种基于卡尔曼滤波和人物部件轮廓特征相结合的方法(KS-PE)。该方法首先利用卡尔曼滤波方法来预测人物目标在后续帧中的区域位置,之后将人物目标分成头,腿和脚三个部件,分别提取其中的边缘直方图来生成特征,综合三部分的匹配得分来实现后续场景中的人物快速标定,从而完成多目标的人物行为识别。在UCF多目标行为数据库的实验对比表明,提出的方法使用了人物部件轮廓特征,可以提高人物目标的匹配准确率,有效解决了多目标的行为识别问题,并且识别精度提高了3%。