基因表达数据分类算法及其应用研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:forgauss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用机器学习方法分析生物信息学中的复杂数据是目前重要的研究领域之一。通过微阵列测试技术得到的基因表达数据可以表现任何给定条件下的基因表达模式,它们可以帮助我们深入地认识诸多生物过程的本质,如基因功能、癌症(肿瘤)、衰老和药理等。本文主要研究基于基因表达数据的肿瘤分类和基因功能分类方法,并针对已有的算法与模型当中所存在的问题,提出对算法的改进。 针对基于基因表达数据的肿瘤分类,本文从分类算法和特征基因选择两个方面进行了改进。在分析了传统的SVM算法和kNN算法的基础上,本文将两者结合成为一种新的应用于肿瘤分类的算法。该算法将SVM视为每类只取一个代表点的1NN分类器,在对测试数据进行分类时,依据测试样本与超平面之间的距离决定采用何种分类算法。实验结果表明新算法的分类准确率较传统的SVM算法和kNN算法有所提高。针对基因表达数据集具有“样本数目少,基因数目庞大”的特点,本文通过特征基因选择提高分类精度。本文提出了一种改进的基于相关性的递归特征消除方法(简称为C-RFE)。新方法通过计算基因间的相关性,在寻求数据最小冗余的同时,考虑了如何避免过度删除与目标表现型相关的基因。实验证明,使用新方法选择特征基因子集可大幅度提高分类性能,特征选择效率也较高。 对于基于基因表达数据的基因功能分类,根据功能类的隶属关系,本文给出了基于功能树的置信度调整和基于功能树的优势因子决策两个准则。依据这两个准则,本文提出了一种改进的基于基因功能树的基因功能分类算法。新算法在测试阶段可自动检测出某一基因在某个功能节点上被忽略或偏高的功能置信度,然后根据基于功能树的置信度调整准则对其进行调整;而功能树优势因子决策准则的引入则可使算法摆脱Fixed-size预测的局限,它利用优势因子分别定出每个分类器的判决门槛值,从而直接判定某个基因是否具备某节点功能。实验结果表明,该算法基因功能预测的精确率和召回率较传统算法有所提高。
其他文献
全面预算是科学地综合运用企业各种资源、帮助决策者规划和控制经营的核心工具,也是企业各级各部门的协调工具、控制标准和考核依据,是实现企业"战略、业务、财务和人力"四位
根据公安部城市警用地理信息系统的标准,利用地理信息系统技术和空间数据库技术,对基于GIS的犯罪分析辅助决策系统进行简要阐述,对其中关键技术进行探讨。 According to the
推进高校财务科学化、精细化管理是落实科学发展观的必然要求,也是高校进行内部管理体制改革,增加办学活力,保证高校健康协调可持续发展的现实需求。本文着重阐明了高校财务
为了探索不同主机工况对大型船用柴油机余热利用系统能量利用率及其相关参数的影响规律,以MAN公司生产的6S50ME-C8.2型船用低速柴油机及自主设计的余热利用系统为例进行研究.