论文部分内容阅读
随着多媒体信息技术的迅猛发展,图像数据正以前所未有的速度在不断增长。面对海量图像数据,利用计算机对数据进行有效管理已成为一项紧迫任务。场景分析是根据图像场景的内容信息对场景所属类别进行判定和对场景中的目标对象进行标准的分割识别,已经成为图像检索、目标识别、计算机视觉等研究的一个重要研究方向。传统技术采用视觉词包(Bag of Visual Words,BoV)对场景进行语义建模,并结合有监督的机器学习来对场景进行学习,这种建模方式相对简单,但是没有充分描述丰富的区域表面视觉特征,并且忽略了视觉词语之间的空间信息。本文将概率生成模型应用于图像场景分析上,重点研究场景的语义建模方式,区域特征的表达方式以及视觉词语之间的空间信息,具体内容及创新点如下:1)本文根据人们对视觉场景的日常认知习惯,把场景图像划分为三个层次,即场景类别层、对象层、特征层,从而形成一个包含三种层次信息的统一框架。然后根据三层之间的概率约束关系,构建了一种新的层次化概率生成模型。2)在区域特征表示方式上,加入了超像素混合体(Super-Pixel Mixtures, SPM)表征,即通过进一步把图像区域(region)进行二次分割成超像素,然后再提取出每个超像素的颜色与纹理特征。这样,与从图像区块(patch)所提取的SIFT特征一起,得到了图像区域的三种视觉特征词语的联合分布表示,增强了区域视觉特征表达的丰富性和稳定性。3)为了结合视觉词语间的空间信息相关性,本文在模型的生成过程中,约定同一区域内的视觉词语均由同一个对象生成,这种处理使得本文构建的模型具有一定的空间相干性。本文所设计的模型是一个完整的生成模型,在进行场景的类别判定时,能够完全摆脱对特定分类器的依赖,同时可实现像素级的对象识别与分割。通过对UIUC-Sport数据库进行实验测试,并与Li-HPGM、Spatial-LTM等传统方法的结果进行比较研究表明,本文所提出的结合超像素区域视觉特性的层次化生成模型,比以往方法拥有更高的场景分类准确率和对象识别精度。