论文部分内容阅读
鲁棒主成分分析(Robust PCA,RPCA)模型,是一个处理矩阵恢复问题的经典模型。它能把被稀疏大噪声污染的低秩矩阵从观测矩阵中分离出来。RPCA模型的应用极其广泛,比如它可以批量对齐图像,可以进行图像去噪等等。近年来有许多优秀的求解RPCA模型的算法,如加速近端梯度算法(APG)、迭代阈值算法(IT)、增广拉格朗日乘子法(ALM)等。但是目前并没有能处理同时含有稀疏大噪声和稠密小噪声低秩矩阵的混合模型,本文的研究内容就此展开。其次,RPCA模型的增广拉格朗日函数中,损失函数项的F范数不够紧致,我们期望能找到一个更好的范数来提高RPCA的鲁棒性和速度。基于上述原因,本文主要做了如下三方面工作:第一、为了恢复同时被稀疏大噪声和稠密小噪声污染的低秩矩阵,本文提出了一种新的广义鲁棒主成分分析模型(GRPCA21),并在范数求导的基础上给出了模型的精确解。计算过程使用随机排序的交替方向乘子法(Randomly Permuted ADMM,RP-ADMM),同时给出了全局收敛性证明和时间复杂度分析。与目前优秀的求解RPCA的算法ALM和APG对比,我们的算法在模拟数据上可以得到更鲁棒,更精确的结果。第二、将GRPCA21应用到图像处理、人脸识别及垃圾邮件过滤问题中。其中图像处理实验结果表明,我们的算法可以成功地从被混合噪声污染的低秩矩阵中恢复出低秩部分和混合噪声部分,并且在细节和光滑度上都优于ALM算法;人脸识别实验结果表明:我们的算法可以将同一人脸的多张不同图像成功地对齐,而且可以去除人脸图像上的墨镜和各种复杂面部表情;基于垃圾邮件分类问题,将本文提出的新的广义鲁棒主成分分析(GRPCA21)算法应用到垃圾邮件过滤中,在分类之前用GRPCA21对邮件的属性进行降维处理。结合主流的垃圾邮件分类算法kNN和SVM,在包含合法邮件和垃圾邮件的数据库上进行试验,得到了较高的精确度。第三、考虑到l2,1范数的紧致性及其在迭代时能自适应地选择合适的步长的优势,在经典RPCA模型的增广拉格朗日函数中将F范数换成l2,1范数。采用辅助矩阵法对基于l2,1范数的RPCA模型给出了精确解并验证了与现有方法求出解的一致性。