论文部分内容阅读
视觉特征的提取是图像分类和识别中的一个关键环节,良好的特征设计能够减轻对后续机器学习算法的依赖性,特征的好坏直接制约着整个视觉系统的性能。因此,特征的研究一直是计算机视觉领域的一个重要研究方向。在长期的研究过程中,研究人员提出了各种特征提取方法用于解决具体的分类问题,这些特征包括基本的颜色特征、纹理特征、局部特征及全局特征等等,它们分别在各种图像分类和识别任务上取得了较好的应用,然而这些传统的特征提取方法存在两个问题:首先,随着视觉任务规模的增大以及复杂性的增强,如果直接用这些基本的特征进行分类任务,经常表现出不足。为此,研究人员提出了“特征表达”的方法,它是在最基本的特征基础上进行矢量量化、稀疏编码或其它表达方式以形成一幅图像最后的特征。最典型的特征表达方法是“词袋”(Bag of Words, BoW)模型,它是对图像的基本特征进行再次统计以形成最后的特征表示,基于该思想的特征表达方法在近几年(2006年~至今)得到了广泛的研究和应用,并在图像分类和识别上取得了非常好的性能。其次,针对某一视觉问题,通常情况下我们需要非常强的先验知识或者通过不同的特征尝试及参数选择才能得到令人满意的特征,给整个分类问题带来复杂性。因此,最近几年(2007年~至今)出现了“特征学习”的研究,它试图从原始的像素出发通过特定的神经网络结构自动发现图像中隐藏的模式以学习出有效特征。典型的方式有基于单层网络结构的特征学习和基于深度结构的特征学习,它们在图像分类和识别上均取得了成功的应用。针对以上情况,本文以提取有效的视觉特征为目的,着重研究面向图像分类和识别的视觉特征表达与学习。在分析目前特征提取方法的基础上,提出了新的特征表达与学习方法并用于解决具体的视觉问题,主要研究内容和创新工作包括以下几个方面:1.提出了基于局部约束编码的Kinect图像特征提取方法,即分别对RGB图像和深度特征提取dense SIFT特征并进行局部约束线性编码以形成Kinect图像对(image pairs)的特征表示,应用于场景分类和目标分类,在NUY Depth和B3DO数据集上验证了特征表达的有效性。2.对行人重识别(Person Re-identification)的特征提取方法进行对比研究,并提出HSV和Lab颜色统计直方图局部约束线性编码的方法用于提高行人重识别率。针对目前行人重识别中特征提取方法的复杂性,提出了目标中心编码(Object-Centric Coding, OCC)的外观模型,该方法是对行人图像进行SCA(Stel Component Analysis)分析以提取行人的轮廓区域,然后对该目标区域进行局部约束编码,有效地减少了杂乱背景的影响。我们在VIPeR行人重识别数据库上进行行人重识别实验,同时采用不同的距离学习方法来评价OCC的有效性。结果表明OCC能够极大地提升行人重识别的正确率,且在不同的距离学习下具有非常高且一致的识别率。3.分析对比了几种常见的单层网络特征学习方法,并提出了L2正则化的稀疏滤波(L2Regularized Sparse filtering)特征学习算法。该方法在保证特征学习的稀疏性同时对特征映射权值矩阵进行约束,以增强算法的泛化能力。我们在四种不同的特征学习数据库STL-10、CIFAR-10、Small Norb以及脱机手写汉字上进行对比实验,证明了该方法比原始的稀疏滤波具有更好的性能。4.研究了基于深度学习的特征学习方法,并针对传统两级手写汉字识别系统中相似手写汉字识别(SHCCR)受特征提取方法的限制,提出了采用卷积神经网(Convolutional Neural Networks, CNN)对相似汉字自动学习有效特征并进行识别,并采用来自手写云平台上的大数据来训练模型以进一步提高识别率。实验表明,相对于传统的基于梯度特征的支持向量机(SVM)和最近邻分类器(1-NN)方法,识别率有较大的提高。通过上述的研究工作,结果表明:有效的特征表达方法能够极大地改善视觉图像分类和识别的性能;基于单层网络和深度结构的特征学习能够对原始的图像数据学习出有效的特征,避免了人工设计特征的复杂性,是一个非常前沿的研究方向且具有广泛的应用前景。