基于机器学习的蛋白质类别及蛋白质-配体相互作用预测研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:caimingminggood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,生物信息技术迅速发展,生命科学的研究重心从破译基因组序列转移到基因功能注释。依据分子生物学中心法则,携带遗传信息的基因翻译成蛋白质才能在生物体内执行多种多样的生理功能。随着高通量测序技术的日臻成熟,被测定的蛋白质序列数目呈指数增长,与此相比,被测定功能的蛋白质数目的增长速度相对滞后。已知序列的蛋白质数目和已知功能的蛋白质数目之间的差距不断扩大,蛋白质功能预测成为重要且极具挑战性的研究课题,其不仅有助于探索生命起源和遗传变异,而且有助于从细胞和分子水平上探讨人类重大疾病的发病机制,为疾病的诊断、预防和药物开发等提供重要的理论支持。通过实验方法进行蛋白质功能注释,成本昂贵、耗时耗力且无法大规模开展。因此,亟需开发可靠、经济和高通量的计算方法,快速精确地预测蛋白质功能。蛋白质类别预测和蛋白质-配体相互作用预测是蛋白质功能预测的两大重要研究分支。基于机器学习,本学位论文对蛋白质类别预测和蛋白质-配体相互作用预测进行了深入研究,具体内容如下:(1)蛋白质类别预测中的二分类问题噬菌体病毒蛋白和非病毒蛋白具有不同的生物学功能。从噬菌体蛋白中准确地识别病毒蛋白有助于理解复杂的病毒机制和开发抗细菌药物。现有的计算方法未全方位的提取蛋白质序列特征,且利用单一的分类器构建预测模型。基于Stacking方法,提出了新的噬菌体病毒蛋白预测方法。该方法从蛋白质序列中提取氨基酸的组成、位置、顺序、分布、理化属性和进化等信息。基于不同的特征提取策略,分别构建不同的随机森林预测模型,并利用逻辑回归算法整合随机森林预测模型的预测结果。在独立测试集上,该方法的预测性能优于现有方法,是预测噬菌体病毒蛋白的有效工具。在生物体内,抗氧蛋白在维持氧化/抗氧化的平衡过程中发挥着重要作用,且对于疾病的治疗具有潜在的价值。准确地预测抗氧蛋白为揭示氧化/抗氧化平衡的生理机制和开发抗氧化药物提供理论依据。针对现有方法的局限性,通过多源特征提取和分类器选择策略,构建了预测抗氧蛋白的集成学习方法。为进一步提高预测性能,该方法利用Relief-增量特征选择剔除冗余和不相关的特征。在独立测试集上,该方法取得了较为均衡的敏感性和特异性,远远优于现有方法。抗血管生成肽对于血管生成具有抑制作用,有助于治疗与血管生成相关的疾病。准确地预测抗血管生成肽能够为理解血管的生成机制和发展抗肿瘤疗法提供重要线索。现有方法通过单分类器建立预测模型,并未利用特征选择技术获取具有高度识别能力的特征。通过分别选取具有高敏感性以及高特异性的基分类器模型,构建了预测抗血管生成肽的集成分类器模型。为降低计算复杂度和提高预测能力,利用特征选择技术获取与分类目标更相关的特征。与现有方法在相同的基准数据集上的预测性能比较结果表明,该集成分类器是预测抗血管生成肽的有效方法。(2)蛋白质类别预测中的多分类问题不同类型J蛋白在疾病发展中发挥着不同功能。准确地识别J蛋白的类型将为阐明不同类型J蛋白在相关生物学过程中的功能提供线索,并有助于理解疾病的发作机制。现有方法采用的特征编码方式单一,尚未解决类不平衡问题。基于欠采样方法,借鉴集成学习思想,构建了J蛋白类型预测模型。该预测模型有效地解决了类不平衡问题。与现有方法相比,该集成分类器模型的敏感性和特异性更均衡。在生物体内,不同离子通道的芋螺毒素所发挥的生理功能和对疾病的治疗潜力有较大差异。准确地预测芋螺毒素离子通道类型有助于破译芋螺毒素的生理机制和药理学特性。现有方法从蛋白质序列中只提取了氨基酸的组成信息,并未解决类不平衡问题。通过提取蛋白质序列中的氨基酸组成、分布、顺序、理化属性和二级结构信息,利用少数类过采样算法增加少数类样本的数目,建立了新的芋螺毒素离子通道类型预测模型。在独立测试集上,该预测模型对不同类型芋螺毒素的预测精度都高于现有方法,验证了其强大预测能力。(3)蛋白质-配体相互作用预测蛋白质-适配体相互作用在生物体内发挥着各种生理功能,并具有潜在的疾病治疗价值。快速有效地预测蛋白质-适配体相互作用有助于深刻理解蛋白质-适配体相互作用的作用机制和开发基于适配体的疗法。现有方法采用单分类器构建预测模型,仅从序列中提取了氨基酸组成信息,并未处理类不平衡问题。为此,基于多源特征提取策略,利用集成学习方法构建蛋白质-适配体相互作用预测模型。在训练集上的10交叉验证结果表明,该方法的敏感性和特异性较为均衡,有效地解决了数据不平衡问题。为客观地评价该方法的预测能力,与现有方法在独立测试集上进行了性能比较。实验结果显示,该方法的敏感性和Youden指数均优于现有方法。
其他文献
介绍了一种新型的液控式分层注水技术。该技术利用独立的管线通过液压控制井下封隔器工作状态。封隔器胶筒采用扩张式胶筒,密封性能稳定,可以产生一定的锚定力;油管采用玻璃
低温流体尤其是液氮在航天、电子冷却、低温生物医疗与超导磁体与电缆等领域有着广泛的应用。文中对光滑与多孔表面上的流体核态沸腾换热与临界热流密度的研究进行了归纳;总结
间充质干细胞(MSCs)是中胚层中具有高度自我更新和多向分化潜能的非造血多能干细胞,可以分化为成脂细胞、成骨细胞、成软骨细胞、肝细胞、心肌细胞、神经元干细胞、胰岛样细
目的比较脐带间充质干细胞(UC-MSCs)与脂肪源性间充质干细胞(AD-MSCs)的体外生物学特性。方法分离培养UC-MSCs与AD-MSCs,CCK-8法检测UC-MSCs与AD-MSCs的增殖能力,流式细胞术
基于SRK实际气体状态方程,对天然气在高压低温条件下经过超音速分离管的高速膨胀过程进行了热力学的计算和模拟。通过将实际气体的计算结果与理想气体计算结果进行比较,发现两
软弱围岩隧道所处区域地质条件复杂,隧道开挖过程中地质因素的变化严重影响隧道围岩稳定性。作为一种特殊的地质条件,冲沟的存在对隧道开挖过程中的围岩稳定和施工安全均会产
训练的实质是什么?为什么成功的训练需要理念?应该以什么样的指导思想进行训练?什么是创新?在训练过程中创新起什么作用?如何提高创新能力?本研究以运动训练和体育比赛中人的发展为
磁源定位及磁矩反演技术在空间探测、无损检测以及目标追踪等领域有着广泛的应用前景。利用磁场梯度张量信息进行磁源定位及磁矩反演的思想是在1975年首次提出的,2006年提出的磁性目标线性方程定位方法以其快速准确求解的特点而备受关注。但是,对于该梯度张量矩阵求逆法进行磁源定位的全方位的误差分析仍有待完善。在简要回顾梯度张量矩阵求逆法进行磁源定位的方法的基础上,提出了一种基于该方法的系统误差和随机误差分析