论文部分内容阅读
蛋白质是生命的物质基础,参与众多的生命活动过程,包括DNA复制、转录、翻译、物质代谢、信号传导和细胞周期控制等,它是生命现象的直接体现者。因此,蛋白质功能研究是蛋白质组学领域的研究热点,然而蛋白质亚细胞位置决定了蛋白质功能。蛋白质只有被运转到特定的亚细胞中,才能参与细胞的各种生命活动,如果运转发生偏差,将会导致细胞功能紊乱,甚至会对生命安全构成威胁,因此蛋白质亚细胞定位的预测对研究蛋白质功能具有非常重要的意义。此外明确蛋白质亚细胞位点,对癌症病发机理的研究和靶细胞药物的发现都起到至关重要的作用。在一些关于蛋白质亚细胞定位预测的研究中,发现越来越多的蛋白质同时存在于两个或多个亚细胞位置上或者在多个亚细胞间移动以实现它的生物学功能。因此,蛋白质亚细胞定位预测的研究就由单位点蛋白质亚细胞定位预测逐渐转向多位点蛋白质亚细胞定位预测,并且它已成为生物信息学的一个研究热点。巨量蛋白质序列的出现给亚细胞定位预测研究带来很大挑战和困难,因此需要借助计算机技术实现蛋白质亚细胞定位的自动预测。而传统的蛋白质亚细胞定位预测方法通常分为四大步:第一步,构建蛋白质数据集,为顺利完成亚细胞定位预测提供可靠数据;第二步,蛋白质的特征提取,是亚细胞定位预测的关键步骤,而传统的方法制约着定位预测精度;第三步,预测算法的选取,选择恰当的预测算法是研究过程的最重要的一步,直接影响最后的预测结果;第四步,预测算法的评估,通过分析评估结果来确定特征提取方法和预测算法选取的好坏,以便于预测精度的提高。本文围绕蛋白质亚细胞定位预测,研究了蛋白质特征提取、亚细胞定位预测算法等。论文主要工作总结如下:(1)本文采用同时含有单位点蛋白质和多位点蛋白质序列的数据集,如Virus-mPLoc和Gpos-m PLoc两个数据集。(2)本文针对熵密度、伪氨基酸组成(PseAAC)和两性伪氨基酸组成(AmPseAAC)三种特征提取方法,开展了如下三个方面的研究。第一方面是改进两性伪氨基酸组成特征提取方法,并与两性伪氨基酸组成进行比较,评价改进方法的有效性。第二方面是改进特征融合规则,本文在简单的特征融合规则基础上,将熵密度所提取的20维特征向量取代两性伪氨基酸组成所提取的前20维向量,称之为特殊融合方法。第三方面是结合二肽组成模型和氨基酸指数分布模型(AAID)两种特征提取方法,提出了一种基于氨基酸理化特征的新型特征提取方法,同时蛋白质定位预测结果证明了该特征提取方法的有效性。(3)采用多标签k近邻算法(ML-KNN)作为预测算法,同时又考虑到数据不平衡的问题,使用改进版的多标签k近邻算法(wML-KNN)。(4)使用汉明损失、1-错误率、覆盖率、平均精确率和正确率5大评估指标对预测算法的进行评价。根据对预测算法的评价结果,可以证明选择的特征提取方法和预测算法在Virus-mPLoc和Gpos-mPLoc两个数据集上具有可行性,并取得了较好的预测精度。