论文部分内容阅读
微阵列基因表达数据通常包含少量样本和大量基因,对于这样高维的基因表达数据,已经迫切需要开发出一些新的有效的特征选取方法,从而选出少数和疾病最相关的信息基因,以减少计算开销和提高分类精度。目前已有不少特征选取方法应用于基因表达数据,比如顺序前进法、遗传算法、信噪比指标等。支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习方法。它采用了结构风险最小化原则,能较好的解决小样本学习的问题,还采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度。基因表达数据的特征基因选取和肿瘤样本分类问题是基因微阵列技术的挑战性课题之一。针对基于基因表达数据的肿瘤样本分类,本文从分类算法和特征基因选取方法两个方面进行了改进。通过一个典型的微阵列基因表达数据集,本文研究了信噪比方法、K-means聚类算法、支持向量机、k -折交叉验证、序贯最小优化算法的理论及具体应用。改进的信噪比方法、K-means聚类结合改进的信噪比方法作为两种特征选取算法用于特征基因的选取,并以支持向量机作为分类器进行肿瘤样本的分类。在支持向量机训练方法中,采用了序贯最小优化算法和新的核函数--erbf、kmod,并用k -折交叉验证作为SVM分类器算法的评价方法,目的是要实现样本分类精度和速度的提高。本文还利用LIBSVM软件对肿瘤样本进行分类训练。整个分类器的流程模型:首先,采用改进的信噪比方法或者K-means结合改进的信噪比方法对原始白血病基因表达数据进行特征基因选取,降低样本维数;然后用最小-最大方法规范化特征选取后的数据;最后用支持向量机构造分类器,评价分类结果。实验结果表明本文提出的方法是可行的,具有一定的实际价值。