基于密度子空间与零空间的高维数据分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:youjian_youjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法主要包括监督分类与非监督分类算法,其中非监督分类算法也称为聚类算法。经典的分类算法主要基于欧氏距离来衡量样本间的相似性,然后根据相似性来实现同类样本的识别。然而,在大数据时代中,分类算法处理的对象往往是大规模的高维数据,这使得传统的分类算法无法很好的发挥效果。从几何上看,高维特征表示使得数据携带了过多的信息,数据分布的几何结构复杂,局部曲率较高,此时使用空间距离作为相似性度量的分类算法(如K均值)容易造成误匹配问题。从代数上看,由于高位数据向量之间往往具有低秩性,这意味着数据集矩阵是奇异的,部分需要对数据集矩阵求逆的算法(如线性判别分析)无法适用。本文主要通过学习高维数据的语义子空间结构来得到数据的子空间表示。在语义子空间中,数据的表征形式变得简洁,几何结构变得清晰,每一个样本仅携带了原始表征中最有用的信息。  对于非监督分类算法,本文提出了基于密度子空间的聚类算法(Classification by Learning the Density Semantic Subspace,LDSC)。LDSC算法通过同胚变换,将高维空间中的数据嵌入至本征维数的语义空间当中,此时其语义空间结构在局部上是紧致的,而全局上是可区分的。Moser定理保证了该同胚变换的存在性,而其推论证明了可以通过密度保持的形式实现该同胚,从而得到原始外围空间到密度子空间的映射。  对于监督的分类算法,我们改进了经典线性判别分析(LDA)算法,提出了正交稀疏零空间LDA算法(SONLDA)。该方法通过求解带正交限制的优化问题,对LDA零空间中的决策向量施加稀疏正交的性质来学习高维数据的语义空间,从而有效的回避了由于数据高维表征造成的组内散度矩阵不可逆,即LDA不适用的问题。由于学习得到的零空间的结构具有稀疏且正交的特性,样本在语义子空间中的区分度得到了很大的提高。  通过在图像数据、文本数据、以及抽象特征数据上的聚类实验,LDSC明显优于对比算法,同时可以看出LDSC的语义空间结构同理论中指出的一样,具有很很清晰的结构。而通过在人脸数据库ORL以及物体数据集COIL20上的分类实验表明,SONLDA算法同样具有很好的效果。
其他文献
微分方程的边值问题在很多领域广泛出现,如在数学、光波学、力学、物理学、流体力学、经济学、环境学和工程学等,随着科学技术的快速发展,求解这些方程的数值方法就要求具有
摘 要:我国煤炭资源非常丰富而天然气资源匮乏,目前天然气供需矛盾越来越大,这已严重影响到了国家能源安全。将煤炭资源进行深加工,就地转化成便于运输的天然气是解决我国能源危机的重要途径。在新疆伊犁地区发展煤制气具有非常高的战略意义,也符合我国“西气东输”的战略政策。  关键词:伊犁 煤炭 煤制气  煤炭、石油、天然气均是我国重要的化石能源,煤炭作为我国最主要的化石能源资源,在能源生产构成中占77.8%
图的完美匹配的计数问题是图论的一个重要研究课题,它在量子化学和统计物理等学科中均有非常重要的应用.一般图,即使是二部图的完美匹配的计数问题是#P-完全的.本文重点研究了无
连通图G的两个顶点押Pj之间的电阻距离)定义为用单位电阻来代替G中的每条边后相应构造出的电网络#中节点押Pj之间的有效电阻.图G的全局圈性指标指标C(G)定义为G中所有相邻顶点
本文研究了一个反应扩散系统在一定初边值条件下的稳态性质.该系统描述的是化学中的一类振荡聚合反应.通过研究这一模型主要得到了以下结果:首先通过构造抛物型方程组的上下
测地线是曲面上测地曲率处处为零的曲线。本文利用判定曲面上的曲线为其测地线的充要条件,研究如何在三角域上构造以给定空间三次Bézier曲线作为其边界测地线的三次三角Bézi
本文主要研宄当区间收缩到一个端点时,一维p-Laplace方程在分离型边值条件下的特征值极限.  全文共分为四章:  第一章为前言,主要介绍了该问题的研宄背景和意义,以及本文