论文部分内容阅读
分类算法主要包括监督分类与非监督分类算法,其中非监督分类算法也称为聚类算法。经典的分类算法主要基于欧氏距离来衡量样本间的相似性,然后根据相似性来实现同类样本的识别。然而,在大数据时代中,分类算法处理的对象往往是大规模的高维数据,这使得传统的分类算法无法很好的发挥效果。从几何上看,高维特征表示使得数据携带了过多的信息,数据分布的几何结构复杂,局部曲率较高,此时使用空间距离作为相似性度量的分类算法(如K均值)容易造成误匹配问题。从代数上看,由于高位数据向量之间往往具有低秩性,这意味着数据集矩阵是奇异的,部分需要对数据集矩阵求逆的算法(如线性判别分析)无法适用。本文主要通过学习高维数据的语义子空间结构来得到数据的子空间表示。在语义子空间中,数据的表征形式变得简洁,几何结构变得清晰,每一个样本仅携带了原始表征中最有用的信息。 对于非监督分类算法,本文提出了基于密度子空间的聚类算法(Classification by Learning the Density Semantic Subspace,LDSC)。LDSC算法通过同胚变换,将高维空间中的数据嵌入至本征维数的语义空间当中,此时其语义空间结构在局部上是紧致的,而全局上是可区分的。Moser定理保证了该同胚变换的存在性,而其推论证明了可以通过密度保持的形式实现该同胚,从而得到原始外围空间到密度子空间的映射。 对于监督的分类算法,我们改进了经典线性判别分析(LDA)算法,提出了正交稀疏零空间LDA算法(SONLDA)。该方法通过求解带正交限制的优化问题,对LDA零空间中的决策向量施加稀疏正交的性质来学习高维数据的语义空间,从而有效的回避了由于数据高维表征造成的组内散度矩阵不可逆,即LDA不适用的问题。由于学习得到的零空间的结构具有稀疏且正交的特性,样本在语义子空间中的区分度得到了很大的提高。 通过在图像数据、文本数据、以及抽象特征数据上的聚类实验,LDSC明显优于对比算法,同时可以看出LDSC的语义空间结构同理论中指出的一样,具有很很清晰的结构。而通过在人脸数据库ORL以及物体数据集COIL20上的分类实验表明,SONLDA算法同样具有很好的效果。