基于机器学习的蛋白质亚线粒体定位预测研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:freddyzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,蛋白质数据库中序列数据的指数增长蕴含着非常重要的生物学信息。如何使用机器学习精准预测蛋白质亚线粒体的位置已成为生物信息学以及蛋白质组学研究中一项具有挑战性的任务。而且,亚线粒体位置的研究对了解蛋白质的结构和功能发挥重要的作用,同时对生命体进化和疾病发生机理都具有长远的研究意义。本文基于机器学习方法系统地蛋白质亚线粒体位置进行相关研究,主要研究成果如下:1.提出PseAAC-PsePSSM-WD的蛋白质亚线粒体定位预测新方法。首先,将伪氨基酸组成(pseudo-amino acid composition,PseAAC)和伪位置特异性得分矩阵(pseudo-position specific scoring matrix,PsePSSM)融合对亚线粒体蛋白质序列进行特征提取。其次,运用二维小波降噪(wavelet denoising,WD)处理提取的特征向量。最后,将降噪后的最佳特征向量采用支持向量机(support vector machine,SVM)预测蛋白质亚线粒体的位置。运用jackknife检验并和其它预测方法进行比较。结果表明,本文方法显著优于现有研究成果,可为其它的蛋白质亚细胞器定位预测提供一种新方法。2.提出SubMito-XGBoost的蛋白质亚线粒体定位预测新方法。首先,融合g-间隔二肽组分(g-gap deptide composition,g-Gap DC)、PseAAC、自相关函数(auto-correlation function,ACF)和二元特征位置特异性得分矩阵(Bi-gram position specific scoring matrix,Bi-gram PSSM)四种特征提取方法对蛋白质序列进行特征提取。其次,由于基准数据集M317、M983和M495样本不平衡,运用合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)处理三个数据集,再结合ReliefF算法将高维的特征向量降维。最后,运用极限梯度提升机(eXtreme gradient boosting,XGBoost)对最佳的特征向量分类预测蛋白质亚线粒体的位置。运用jackknife检验,同时和现有的预测模型进行比较。结果表明,本文提出SubMito-XGBoost方法的预测结果显著优于现有研究成果,可为其它亚结构定位预测提供一种新工具。
其他文献
目的 观察针推结合治疗隐性脊柱裂遗尿的临床疗效 ,探索检测疗效的量化指标。方法 对40例患者进行临床疗效观察及治疗前后 B超检查 ,观察对比膀胱容量大小 ,有无残余尿及量
以虚拟装配软件Division Mockup为平台,提出了卫星虚拟装配系统的体系结构,并在Division Mockup软件下完成了卫星产品的装配过程规划。针对Division Mockup只偏重于装配过程图
以西安市某地下水源热泵直线型异侧布井为例,分别运用解析法、数值模拟方法分析了渗流场影响范围,并确定了渗流场影响范围、安全距离与井距的对应函数关系。结果表明:在含水层水
文章将影响股票市场与债券市场的信息冲击分解为6种类型,利用向量移动平均模型考察了中国股市与债市受这些信息冲击的反应特征。研究发现不同信息对两市的收益率、收益波动风
<正>刚过去的2014年,对于在华外资农机企业来说是一个艰难的年份。其中,上海纽荷兰2014年在中国市场黯然收场,令行业内人士唏嘘不已。实际上,近年来不仅凯斯纽荷兰,其他一些
期刊
高中艺术教学越来越体现出多元化特点,艺术教学的多元化发展趋向使艺术生艺术创造力成为高中艺术类教学关注的焦点。在实践中,不少教师已经认识到审美想象力是提升高中艺术生
本文从分析苯-水-乙醇三元恒沸混合物及苯-水-乙醇三元恒沸混合物脱水除苯工艺原理及间歇共沸精馏分离杂质原理出发,进行了设备选型,工艺试验,并进行了原料配比、最适宜回流
国际原油与国内成品油之间存在价格传导关系,以柴油价格为例,利用2005年~2015年WTI及0#柴油价格的月度数据,通过建立国际原油价格与柴油零售价格的向量自回归模型,结合脉冲响
本试验旨在研究a-半乳糖苷酶和木聚糖酶对断奶仔猪生长性能和消化性能的影响。选用135头平均体重为(7.4&#177;0.8)kg的杜&#215;长&#215;大三元杂交断奶仔猪,设9个组,每组3个重复,每