论文部分内容阅读
图像数据规模化发展使得图像的有效组织和分类成为迫切需要,而通用目标和场景的识别实际上是图像组织和分类任务的具体化。因此,近年来图像和场景识别作为计算机视觉领域的一个重要组成部分而异常活跃。计算机视觉理想化的最终目标是无限接近甚至在某些方面超越人类视觉能力。人类视觉在进行类别识别时有如下特性:能识别的目标种类数高达30,000类,对新类的识别只需要少量的样本,新类别识别过程迅速,对类内变化,旋转等因素都具有很强的不变性。因此,上述人类视觉特性也成为计算机视觉领域研究者孜孜以求的目标。近年来,目标和场景分类取得了一定的成果,但无论从数据规模,识别性能,算法的通用性和效率等方面都远远达不到“通用”识别的要求,该课题的研究空间还很大。论文从通用视觉目标识别的两个主要环节“特征分析”和“分类模型”展开研究,致力于研究特征描述语义化、生物启发特征、多特征融合、多核机器学习、在线学习、多示例多标注识别等视觉目标识别领域中关键技术,主要工作包括:1.提出基于PLSA语义模型的多示例包生成器,并将之应用于多示例多标注识别系统中,取得了优异的识别性能。在多示例多标注识别系统中,多示例图像包生成器是该系统中的图像表达形式,也是决定系统性能的重要环节。本论文对目前主流的多示例包生成器“基于像素块的包生成器”,“基于滤波输出的包生成器”,“ImaBag”,“JSEG-Bag”,“Attention-Bag”等进行全面的比较研究,总结出多示例包生成器的设计应考虑的两个要素:示例区域提取和示例表达,其中示例区域提取应覆盖图像中的语义区域,而示例描述应反映关键鉴别信息,对噪声有一定容错能力,并从底层像素级特征描述向中间语义级发展。在此基础上我们提出利用PLSA语义模型,训练得到示例的中间语义表达,形成图像的多示例语义包,进行多示例多标注场景的识别。该方法与目前性能最好的ImaBag方法比较,平均识别精度提升8.9%。2.提出融合简单颜色或形状特征来改善生物启发特征的识别性能。生物启发特征(BIM)是一种基于灵长类动物视觉皮层机理的特征提取方式,该特征模拟人类视觉皮层的前向和分层工作模式,取得了良好的图像分类效果。然而,BIM特征形成过程中的随机学习造成了该特征的不足。当试图增大原型数换取特征性能鲁棒时,特征提取过程计算复杂度提高,特征维剧增,这将加重后续分类器的负荷。另外,特征中含有大量的冗余信息,反倒劣化BIM特征的识别性能。因此,论文提出选取合适的原型数目,通过集成简单颜色或形状特征,来改善识别系统的性能,取得了良好的效果。例如,我们将该方法用于OT场景数据库时,识别性能提高了10.4%。3.提出一种融合颜色或形状特征与BIM特征以进行多标注视觉目标识别的方法。该方法在多示例包生成器框架下进行多特征融合的探索工作。实验证明,将BIM引入到多示例多标注系统中,与颜色,形状等信息进行加权融合生成多示例包,取得了较好的多标注系统的识别效果。对场景识别平均识别精度提高将近6%,对多标注目标识别提高16.3%。4.提出了在线式高效优化异质特征融合机(OLHFFM)学习算法。异质特征融合机是一种基于多核概念,但超越多核学习的一种模型。本文实现该模型的批处理式优化算法“组坐标梯度下降算法”(BCGD),并在目标和场景识别中进行大量的实验验证,实验表明了该方法在异质特征融合上的有效性,并摸索出细致的异质特征核融合规律。然而,BCGD算法对大规模数据和在线式样本获取的工作模式下无效。因此,本文提出了在线式学习算法OLHFFM,高效优化HFFM模型。该算法给出了“基于多核的groupLASSO正则化模型”的通用在线式解法,我们可以方便地采用该算法求解一类通用多核模型,即损失函数可以是可导的任意函数(例如Logistic函数、Square loss函数等),同时可以方便地将其推广到“稀疏groupLASSO”等更多的正则化情形下。论文将该算法在较大规模的视觉目标场景图像识别上进行实验验证,取得了很好的识别结果。通过多Pass策略模拟了“万”级规模的样本数,在67类的场景数据库上进行实验验证,均取得了较好的识别性能。在通用视觉目标识别领域,图像表达的语义化趋势、多特征融合趋势、识别方法(包括特征提取和分类器)基于生物机理的趋势、在线式学习趋势等是通用视觉目标的重要技术发展方向,值得进一步深入研究。