肿瘤基因表达谱数据特征选择方法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:weigangming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术与信息技术的快速发展,在生物医学方面,越来越多的专家学者开始通过计算机技术来研究基因数据,从而完成对肿瘤的亚型分类与诊断。由于肿瘤基因表达谱数据的高维、小样本等特点,导致在获取数据的过程中掺杂了较多的无关基因以及冗余基因,而且这些信息很容易造成实验结果不理想,影响诊断结果。为了解决此类问题,针对肿瘤基因表达谱数据的特点,如何筛选出低冗余的特征信息,以及如何构造鲁棒性好、泛化能力较强的特征提取算法是本文要研究的重点。主要工作如下:(1)基于信噪比与随机森林的肿瘤特征基因选择方法。针对肿瘤基因表达谱数据的高维度、小样本等特点,传统分类方法会选出大量冗余基因信息,提出了一种基于信噪比与随机森林的肿瘤特征基因选择方法。首先使用信噪比过滤法去除冗余基因,从而获取分类属性较强的初选特征子集;然后采用随机森林算法对初选特征基因子集进行分类得出特征基因子集。实验结果表明,该算法能够快速高效地选择特征基因子集,与其他算法相比,该方法降低了时间复杂度,提高了分类的准确率。(2)为了设计出具有较强鲁棒性的改进的自组织映射(SOM)算法,针对传统的自组织映射算法采用欧式距离难以行之有效地描述基因之间的数值正、负等功能相似性,又考虑到粒子群优化算法的快速收敛性,本文提出了一种基于邻域互信息进行关联度量的SOM分类算法,并与粒子群优化算法相结合来实现最优特征子集的筛选。首先,采用改进的SOM算法对原始基因表达谱数据进行预处理,采用邻域互信息,对基因之间的相关性进行评估,赋予其相应的相似度,得到获胜神经元的权重;然后通过粒子群优化方法对相关特征子集进行评估,以确定最优特征子集。仿真实验表明,相比其他相关方法,该方法提取的特征基因数据较少,分类准确率较高,对于多分类的问题依然取得好的分类效果。
其他文献
体育旅游是近些年来体育界和旅游界研究的一个新热点,作为获取娱乐与健康的主要途径,体育旅游正日益成为体育产业新的增长点,这主要体现在其集娱乐性与健身性、参与性与观赏
《计算机应用基础》是一门集知识性、实用性和实时性的全校非计算机专业公共课程。该课程具有基础性、普及性,实用性、不可替代性的特点,在培养学生的计算机知识、能力、素质
基于无线传输方式,本文提出一种无线呼救系统,旨在解决一些不方便搭建有线呼叫系统的医院急救问题。该系统由病床模块、护士模块和护士站模块组成。三部分之间的数据传输均采
该项目运用模糊理论对可编程控制器的PID模块的比例系数和积分时间进行模糊控制,利用MATLAB仿真技术对经验法建立的控制模型进行仿真,仿真和实际运行表明该模糊PI控制技术有
作为中学的数学教师,把数学教学的工作做好即是对家长的交代,也是对学生负责,更是实现自我价值的有效途径.本文主要针对中学数学教学高效课堂的实施途径进行了探讨和研究.
确山县是我国重要的中药材生产基地,夏枯草等中药材的种植影响较大、效益较好,中药农业已成为确山县农业和农民增收的支柱产业。夏枯草常年种植面积在6000hm^2以上,年产值3600万
在音乐的日常使用中,音乐风格是个体音乐活动开展最为重要的音乐属性之一。音乐风格与听者的情感过程和神经活动密切相关,个体的音乐风格偏好在一定程度上也反映个体的社会身
基层央行信息化发展到今天,信息孤岛和应用不集成是比较严重的问题。它突出表现在:各应用系统都是依据职能划分而定制开发,系统功能都是为某一特定业务需求而设计,各个系统之间相
本文阐述了城市土地可持续利用面临的一些挑战,结合桃源县实例分析及城市土地可持续利用评价结果分析,提出了整合土地资源,集约利用土地;制定土地利用规划,合理进行土地布局;注重生
通络缓急排石汤治疗尿石症32例吴德永笔者近年来在临床中拟用通络缓急排石汤治疗尿石症32例,取得满意疗效,现报告如下。1临床资料32例中男25例,女7例;年龄最大70岁,最小16岁。结石情况:肾结石9例,输