基于支持向量机的基因表达数据特征选取方法研究

被引量 : 0次 | 上传用户:wanily1123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列基因表达数据通常包含少量样本和大量基因,对于这样高维的基因表达数据,已经迫切需要开发出一些新的有效的特征选取方法,从而选出少数和疾病最相关的信息基因,以减少计算开销和提高分类精度。目前已有不少特征选取方法应用于基因表达数据,比如顺序前进法、遗传算法、信噪比指标等。支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习方法。它采用了结构风险最小化原则,能较好的解决小样本学习的问题,还采用核函数思想,把非线性空间的问题转换到线性空间,降低了算法的复杂度。基因表达数据的特征基因选取和肿瘤样本分类问题是基因微阵列技术的挑战性课题之一。针对基于基因表达数据的肿瘤样本分类,本文从分类算法和特征基因选取方法两个方面进行了改进。通过一个典型的微阵列基因表达数据集,本文研究了信噪比方法、K-means聚类算法、支持向量机、k -折交叉验证、序贯最小优化算法的理论及具体应用。改进的信噪比方法、K-means聚类结合改进的信噪比方法作为两种特征选取算法用于特征基因的选取,并以支持向量机作为分类器进行肿瘤样本的分类。在支持向量机训练方法中,采用了序贯最小优化算法和新的核函数--erbf、kmod,并用k -折交叉验证作为SVM分类器算法的评价方法,目的是要实现样本分类精度和速度的提高。本文还利用LIBSVM软件对肿瘤样本进行分类训练。整个分类器的流程模型:首先,采用改进的信噪比方法或者K-means结合改进的信噪比方法对原始白血病基因表达数据进行特征基因选取,降低样本维数;然后用最小-最大方法规范化特征选取后的数据;最后用支持向量机构造分类器,评价分类结果。实验结果表明本文提出的方法是可行的,具有一定的实际价值。
其他文献
本文首先综述国内外学者对货币政策有效性的研究成果,再选取我国1998年——2008年的季度数据,使用ADF检验、协整检验及Granger因果检验对我国货币政策有效性进行实证分析,最
随着中国加入了世界贸易组织,浙江的经济得到了大力发展。在浙江商品大力发展的同时,面临的竞争压力越来越大。因此,如何提高浙江商品的竞争力已成为各企业发展的首要问题。
<正>乳腺增生病是一种既非炎症也非肿瘤的增生性乳腺疾病,是中青年妇女的常见病、多发病,其发病率居全部乳腺疾病的首位,多见于25~45岁女性,且现在起发病率呈逐年上升趋势,发
以X-射线衍射、差示扫描量热分析(DSC)、扫描电镜及振动样品磁强计等为主要研究手段,以Co43Fe20Ta5.5B31.5非晶合金为对象,首次系统研究了该合金在不同条件下的晶化行为、等温退火
数学概念是数学的“基石”,是学生获得系统的数学知识的源泉,是导出数学定理和数学法则的基础,是提高能力的前提。然而在日常教学中,教师三言两语简单地介绍概念,然后举几个
<正> 抽动—秽语综合征是一种以运动、语言和抽搐为特点的行为障碍的综合征。迄今对其发病原因尚未清楚,以致无特效药物。刘弼臣教授通过多年临床实践,运用中医的“风痰”理
近年来,西双版纳野生动物特别是亚洲象肇事越来越频繁,造成的损失也逐年升高,引起了社会的广泛关注。通过调查发现原因主要有以下几方面1.人口增长。2.种植经济作物侵占了野
本文试从婚姻的角度考察春秋时期公室与公室、公室与世族、世族之间以及公室、世族与少数部族间的相互关系。晋国是春秋五霸之一,在春秋时期诸侯争霸的战争中占据了较长时间
本文研究的主题是我国城市居民社区公共产品需求的现状、特征及其影响因素。经过30年改革开放,我国的经济结构,以及人们的收入水平、消费需求都发生了巨大的变化,尤其是大中