基于多组学融合数据的胃癌亚型分类模型研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:vbsunboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
癌症是威胁人类健康的一个主要因素,具有复杂性和多发性。如今生物医学技术快速发展,多种癌症的亚型已经被发掘出来,不同亚型有不同的发生机制,因此准确的癌症亚型判别对其早期诊断和靶向治疗至关重要。随着高通量技术的发展,大量基因序列信息、转录数据、蛋白质数据涌现出来,充分利用这些数据来判别与临床密切相关的癌症亚型是一个重要的研究方向。常见的癌症中,胃癌的发病率极高,临床上基于形态、图像进行亚型诊断的方法存在一定的缺陷,判别准确率较低。本文针对TCGA(The Cancer Genome Atlas)数据库中胃癌样本的micro RNA(mi RNA)数据和DNA甲基化数据,提出了对多类别数据平衡化处理的模型及胃癌亚型分类模型,有效的解决了样本亚型分布不平衡的问题,并实现了更准确的胃癌亚型分类。论文主要包括三个方面的工作:(1)对于mi RNA和DNA甲基化这两种与胃癌亚型联系密切的数据集,本文提出使用自动编码器融合两种组学数据的方法,充分利用多组学数据之间的调控性。由于数据存在样本小、特征维度高、冗余多的问题,采取均分式Lasso(KLasso)算法做特征选择,然后使用注意力机制对特征添加权重。实验结果验证了所提方法的有效性,使分类准确性得到了提高。(2)针对胃癌样本亚型分布不平衡的现象,提出了一个基于平衡度反馈抽样和Tomek link方法的混合模型,平衡了四种亚型的样本量,同时使分类结果更好。(3)为提升对小样本数据的分类效果,本文提出了Two Boosting Deep Forest(TBDForest)分类模型,基于深度森林做了两部分优化:一是将每个级联层划分为两个子层,以增加模型的学习机会,提高分类准确性;二是综合考虑了模型中集成的随机树的性能,以标准差的形式添加到每个级联层中,从而改善子分类器对分类结果的影响,降低过拟合风险。最后与医学研究中应用广泛的五种分类模型:支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、极限梯度提升树(e Xtreme Gradient Boosting,XGBoost)、卷积神经网络(Convolutional Neural Networks,CNN)和多粒度级联森林(multi-Grained Cascade Forest,gc Forest)做实验对比,得到模型性能评价指标。结果显示,本文提出的胃癌亚型分类模型在TCGA的胃癌多组学融合数据上有明显的优势,获得了97.87%的准确率,在本校医学院提供的胃癌患者数据集上得到了95.28%的准确率,具有良好的泛化能力,此外模型各项指标也均优于其他方法。
其他文献
随着我国“十三五”能源发展规划的确定,作为传统高耗能制造业,钢铁工业迫切需要提高能源利用率,解决能源管理落后的问题。目前,我国大多中小型钢铁企业自动化水平还有待提高
进入二十一世纪以来,我国的旅游经济迅速发展,但由于各地旅游经济起步时间不一、旅游资源不同、政府政策力度不均,旅游经济空间差异普遍存在。随着学者们对区域旅游经济研究
在“互联网+”的大背景下,大型制造企业通过PC端、移动端和线下等多渠道拓展业务所产生的数据量已从TB级别达到了 PB级别,业务类型和制造数据的繁荣为制造企业经营决策带来新
遗传多样性和子代性比都是评价种群是否能够长期生存的参数。遗传多样性指物种或种群内遗传变异的总和,与物种的适应能力及进化潜力密切相关。而性比指雄性与雌性的比例,畸形的性比会减少有效繁殖对的数量并加速种群的衰亡。因此,这两个参数是分析种群生存能力的重要依据。赤腹鹰(Accipiter soloensis)是隼形目鹰科中的一种小型猛禽,被我国列为国家二级保护动物,主要分布于朝鲜、菲律宾、马来西亚和中国。
在人工智能与安全防控深度融合发展的趋势下,以人脸识别为代表的高效、便捷、可靠的生物特征识别技术被广泛应用于汽车智能安防的产业技术升级,深度学习驱动下的人脸识别紧跟
河南省是我国夏玉米的主要产区,也是水资源严重短缺地区之一,水分是影响夏玉米产量形成的主要限制因子,合理的灌溉制度是提高农业水资源利用效率、保证夏玉米高产稳产的前提。本研究立足于豫北夏玉米主产区浚县和温县,采用农业技术转化决策系统(DSSAT,Decision Support System for Agrotechno1ogy Transfer)探究了夏玉米在不同降水年型不同初始土壤水分条件下的最优
从工业革命开始,环境污染成为一个重大社会问题。尤其进入20世纪后,工业等各方面迅猛发展,人们物质生活提高的同时,城市化进程过快,工业布局的不当造成环境污染日益严重。大量事实证明废物排放量已经超过环境自身承载能力。根据世界多位著名环保专家推断,在如今世界10大环境问题中,大气污染问题最为严重。治理大气污染已成为各个国家、各个地区改善环境,走可持续发展道路的关键点。通过对沈阳市934个工业企业利用CA
“活性”/可控自由基聚合(LRP)自发展以来,一直备受学术界和工业界的高度关注。由于其具备分子可设计性强的优势,已经被广泛应用于制备多种拓扑结构的聚合物(如:嵌段、接枝、星形共聚物等)。但是,制备可设计的高活性单体(MAMs)和低活性单体(LAMs)共聚的嵌段共聚物(P(M AM)-b-P(LAM))却依然面临着巨大的挑战。其中一个主要原因在于低活性单体本身生成的自由基较为活泼,易发生链转移和链终
离散华人与祖籍国之间有着非常复杂又割舍不断的跨国联系,这使离散华人跨国网络中有千丝万缕的互动与维持机制,在其中比较少为人关注的是出版于祖籍地(侨乡)的侨刊。侨刊主要
中国自改革开放后经济蓬勃发展,特别是十八大以来,开启了新时代征程。共享作为五大发展理念之一,受到越来越多的关注和重视。共享的应有之意是全体社会成员共享社会发展成果,