论文部分内容阅读
基因芯片技术同时可以检测成千上万个基因的动态表达水平,这些表达值构成了基因表达谱数据。肿瘤的基因表达谱具有高维小样本的特点,然而只有少量基因与肿瘤分类相关。由于冗余基因在增加时间复杂度的同时降低了分类精确度,因此需要从大量的基因中挑选出信息基因用于肿瘤分类。本文采用稀疏表示方法对肿瘤基因表达数据进行分析,主要研究工作如下:在稀疏表示的分类方法中,测试样本由所有的训练样本线性表示,通常需要假设编码残差服从高斯分布或拉普拉斯分布,然而在实际的肿瘤分类中这样的假设可能不能高效地描述编码残差,并且编码系数的稀疏性限制使得该分类模型时间复杂度比较高。本文提出了基于元样本的正则化鲁棒肿瘤分类模型,该分类方法是基于元样本聚类和正则化鲁棒编码方法的结合。首先利用奇异值分解方法从训练集中提取元样本,测试样本由所有的元样本线性表示。通过假设编码残差和编码系数相互独立并且服从相同的分布,采用最大后验估计解决编码问题。在本文中使用到了一个迭代的分配权重的正则化鲁棒编码方法,在迭代过程中,分配给产生较大残差的基因较小的权重,在下次迭代时把具有较小权重的基因过滤掉,从而减小离群值对最终求得的编码系数的影响。迭代结束后,利用元样本和求得的编码系数为子类重构测试样本并计算测试样本和重构测试样本间的残差,把测试样本分到产生最小重构残差的子类中。该分类模型具有较高的分类精确度并且相对较低的时间复杂度。基于稀疏表示的分类模型相比传统的分类方法避免了过拟合的问题。然而编码系数的稀疏性限制使得该类方法时间复杂度比较高。研究表明,训练样本的协作表示比系数的稀疏性限制对提高分类精确度更重要,而且在编码系数中,只有一部分系数才有比较大的值。因此本文提出了一种新的分类模型:基于近邻的协作表示肿瘤分类算法,命名为基于近邻样本正则化最小平方的协作表示肿瘤分类方法(KCRC_RLS)。本文所提出的分类模型首先利用k-近邻方法找到测试样本最相似的6)个近邻样本,用这6)个样本线性表示测试样本,求解编码系数,重构测试样本再进行分类,该算法和几种基于稀疏表示的分类方法相比可以得到更好的分类结果。