论文部分内容阅读
使用机器学习方法分析生物信息学中的复杂数据是目前重要的研究领域之一。通过微阵列测试技术得到的基因表达数据可以表现任何给定条件下的基因表达模式,它们可以帮助我们深入地认识诸多生物过程的本质,如基因功能、癌症(肿瘤)、衰老和药理等。本文主要研究基于基因表达数据的肿瘤分类和基因功能分类方法,并针对已有的算法与模型当中所存在的问题,提出对算法的改进。 针对基于基因表达数据的肿瘤分类,本文从分类算法和特征基因选择两个方面进行了改进。在分析了传统的SVM算法和kNN算法的基础上,本文将两者结合成为一种新的应用于肿瘤分类的算法。该算法将SVM视为每类只取一个代表点的1NN分类器,在对测试数据进行分类时,依据测试样本与超平面之间的距离决定采用何种分类算法。实验结果表明新算法的分类准确率较传统的SVM算法和kNN算法有所提高。针对基因表达数据集具有“样本数目少,基因数目庞大”的特点,本文通过特征基因选择提高分类精度。本文提出了一种改进的基于相关性的递归特征消除方法(简称为C-RFE)。新方法通过计算基因间的相关性,在寻求数据最小冗余的同时,考虑了如何避免过度删除与目标表现型相关的基因。实验证明,使用新方法选择特征基因子集可大幅度提高分类性能,特征选择效率也较高。 对于基于基因表达数据的基因功能分类,根据功能类的隶属关系,本文给出了基于功能树的置信度调整和基于功能树的优势因子决策两个准则。依据这两个准则,本文提出了一种改进的基于基因功能树的基因功能分类算法。新算法在测试阶段可自动检测出某一基因在某个功能节点上被忽略或偏高的功能置信度,然后根据基于功能树的置信度调整准则对其进行调整;而功能树优势因子决策准则的引入则可使算法摆脱Fixed-size预测的局限,它利用优势因子分别定出每个分类器的判决门槛值,从而直接判定某个基因是否具备某节点功能。实验结果表明,该算法基因功能预测的精确率和召回率较传统算法有所提高。