论文部分内容阅读
蛋白质由氨基酸序列构成,氨基酸序列只有当折叠成特定的空间构象后,蛋白质才具有相应的生物学功能和活性。已有研究表明,自然界中蛋白质的折叠模式只有数百近千种,对这些蛋白质折叠模式进行系统研究,开发出快速的理论预测算法,有助于挖掘出蛋白质折叠的内在规律,为蛋白质结构的精确实验测定提供参考。蛋白质折叠预测方法大致分为两类:同源模型化方法和基于分类学的方法。在序列相似度较高时,同源模型化方法能取得很好的预测效果,但随着相似度的降低,同源模型化方法只能预测出未知蛋白质整体折叠的粗糙模型,可信性大幅下降。基于分类学的方法,本质是利用机器学习,从氨基酸序列出发,通过提取特征预测其折叠模式,它不依赖相似度,对于远距离同源蛋白质,依然能够预测出目标蛋白质的正确折叠模式。本文总结了机器学习应用于蛋白质折叠预测的一般步骤,包括特征提取,特征向量的优化组合,基本分类器的选取,预测和性能评价。在特征向量的优化组合上,已有的方法都采用“逐个加入”的方法,存在着不能够寻找到最优特征向量组合等缺陷。本文采用遗传算法进行特征向量的优化组合,不仅弥补了这些缺陷,还能计算出各个特征向量的权值,评价各种特征的优劣。此外,在性能评价上,本文不仅分析了灵敏度和整体精度,还通过受体操作特征曲线来分析其实际应用的泛化能力。借助于SCOP数据库的层次结构,本文提出了一种基于随机森林的多层次预测结构MLPA-RF,通过采用两种改进的特征,即基于进化信息的氨基酸组成和基于PredictProtein预测的二级结构的特征组合,解决蛋白质折叠预测问题。在通用实验数据集上的实验表明,相对已有方法,本文提出的方法不仅整体预测精度高,复杂性小,而且具有较强的泛化能力。此外,多层次预测结构易于扩展,新的分类算法可直接嵌入,还很方便实现移植,为蛋白质折叠预测提供了一种新思路。