论文部分内容阅读
近年来,随着信息技术的飞速发展,互联网中的图像、音视频、文本以及生物信息数据往往呈现高维特征,这种高维度输入数据往往会导致现有机器学习模型性能大幅下降或不适定问题的出现,因此,如何从高维数据中有效提取特征,以提升高维数据环境下具体学习任务的性能,成为模式识别、机器学习、数据挖掘、计算机视觉等领域的研究热点。面对高维数据分类问题中存在的高维数、非线性、小样本等挑战,利用机器学习、模式识别和计算机等多学科交叉的理论和方法,以维数约简、多核学习、非参核学习、稀疏表示等方法为基础,针对现阶段高维数据维数约简算法和核学习算法存在的不足,研究基于核学习和稀疏表示的高维数据识别方法,并将所提方法成功应用于人脸识别、文本分类等实际问题。所取得的主要研究成果包括:(1)针对现有多核维数约简方法学习效率不高的问题,通过在传统多核维数约简模型中引入谱回归方法并进行式推导,提出了基于谱回归和迹比率最大化的多核维数约简方法,基于设计的多核维数约简模型,提出了更加高效的多核维数约简算法,有效解决了多核维数约简模型中稠密矩阵的广义特征值分解问题。在高维数据集上的实验结果表明,该方法兼具谱回归和多核学习的优势,获得了比现有多核维数约简方法更好的学习性能。(2)针对现有有监督多核维数约简假设每类数据均服从高斯分布的强限制条件,为解决面向高维数据的实际应用中该条件不成立问题,提出一种基于谱回归的边缘Fisher分析模型,并对基于单核的边缘Fisher分析模型进行多核拓展,分别提出了基于边缘Fisher分析的线性、单核和多核维数约简算法。训练算法同时具备谱回归和MFA的优点,能够充分利用数据集的流形结构和类别信息,解决了原始数据非高斯分布条件下的高效维数约简问题。(3)针对半监督非参核学习算法处理高维和稀疏数据可能导致的流形假设失效问题,通过把数据低维嵌入模型引入半监督非参核模型,提出基于低维嵌入的半监督非参核学习模型,并证明了该模型可以转换为迹比率优化问题,从而克服了传统非参核学习方法对流形假设的依赖,基于所提出的框架,推导出了一系列半监督嵌入式低秩核学习算法。在标准数据集上的实验结果表明,提出方法的性能明显优于现有同类方法。(4)针对传统核稀疏表示分类方法在高维数据集上分类精度较低且计算复杂度较高的问题,提出基于谱回归和组合范数的核稀疏表示分类方法。该方法先采用谱回归分析得到样本数据的低维表示,再通过核方法将其投影到高维特征空间使其更加具有可分性,通过目标函数组合范数约束,有效利用了数据集的流形结构和稀疏特性,较好地解决了高维人脸图像核稀疏表示分类问题。在标准人脸图像数据集上的实验结果表明,该方法不仅提高了识别率,而且降低了算法时间,可以有效应用于高维人脸图像数据的分类问题。