论文部分内容阅读
作为对目标类的一种高层特征描述,属性学习成为近年来机器学习和模式识别领域一个新的研究热点。与传统基于统计信息的低层特征(如颜色直方图等)相比,属性表示具有描述灵活度高、可解释性好、推广能力强等优点。现有研究表明,属性的引入有助于简化数据表示、降低模型复杂度,并显著提高模型的精确度和鲁棒性。虽然属性学习在很多实际问题中取得了良好性能,但仍存在如下几个重要问题有待解决:1)仅考虑了属性和目标类之间的关系,忽略了对属性和属性间(相关)关系的建模;2)没有充分考虑高维特征对属性学习带来的困难;3)没有足够重视属性分类任务中存在的类别不平衡所带来的不利;4)缺乏特定的有效属性表示方法,以对具有明显结构特点的图像进行属性描述。本文围绕属性学习方法中存在的上述若干重要问题进行深入研究,通过充分挖掘和利用与属性相关的先验信息,探讨了属性表示、属性关系学习、属性特征选择和属性分类模型设计等方法,并将上述模型和方法应用于解决目标识别和脑影像分析等实际问题。本文主要贡献总结如下:(1)由于不同属性从不同角度描述了同一目标类,因此这些属性之间存在一定的相关关系。为了从数据中自动挖掘出这种属性关系,本文提出了属性学习一般框架下的自动属性关系学习模型(attribute relationship learning,ARL)。具体地,在ARL模型中利用逆协方差矩阵来反映属性之间的相关关系,并将其作为正则化项置入多属性分类器的联合学习目标之中,实现了属性关系的显式和自动建模。此外,为了充分利用从数据中学习到的这种属性关系,本文设计了一种属性关系嵌入方法,将ARL模型学得的属性关系自然地嵌入到传统(即不考虑属性关系)属性分类器的建模中,以提高传统属性分类器的学习性能。在四个标准属性数据集上的实验表明,所提方法不仅能够精确刻画属性之间的相关关系,而且有助于提高属性分类器在目标类信息严重不充分场景下的学习性能。(2)现有属性学习方法通常利用多种低层特征,而这些低层特征往往维数较高。直接利用这些特征不仅会带来巨大的存储和计算负担,而且会恶化模型的泛化性能。为此,本文提出了一种成对约束诱导的属性特征选择方法(pairwise constraint guided sparse feature selection,CGS),其利用给定的成对属性约束信息对目标进行属性描述,并提出了两个基于成对约束诱导的正则化项用于属性特征选择。进一步地,本文提出了CGS的两种变体,即半监督CGS(semi-supervised CGS,SCGS)方法和集成CGS(ensemble CGS,ECGS)方法。实验结果表明,所提方法可以有效降低属性分类任务中的特征维数,并显著提高了监督和半监督场景下的属性分类性能。(3)现有属性学习方法中,所有目标类通常共享一组公共属性。由于在某些特定属性上可能只有较少的目标类有响应,因此共享属性表示的方法会导致严重的类别不平衡问题。针对这一问题,本文提出了一种双重代价敏感的属性分类模型(two-stage cost-sensitive learning,TSCS),即在特征选择阶段和分类器设计阶段分别引入代价敏感信息。具体地,在第一阶段提出了三种基于代价敏感信息的特征选择方法,旨在选择能使误分类代价最小的特征子集;在第二阶段,利用代价敏感分类器进行属性分类,旨在使分类器不会被大量的负例样本所主导。实验结果表明,与传统方法相比,本文所提方法能在不降低属性分类精度的前提下大幅度降低误分类总代价。(4)现有属性表示方法主要利用语义属性、视觉属性和判别性属性对目标类进行描述,无法对具有明显结构信息的图像进行有效表达。受计算机视觉领域中属性定义方法的启发,本文首先提出脑影像的结构属性表示方法,然后提出一种通过聚类方式自动确定结构属性的算法,并由此形成了一套通用的基于结构属性表示的脑影像分类框架。该框架涉及:1)利用多种结构属性实现对脑影像的特征表示,2)通过关系诱导的特征选择模型进行特征选择,3)通过基于多结构属性的集成分类方法对脑影像进行自动分类等。在标准数据集上的实验验证了所提方法的有效性。