论文部分内容阅读
随着人类蛋白质组计划(HPP)的启动和后基因组时代的来临,生物领域产生了海量的蛋白质序列数据。应用分子生物学手段处理和分析这些序列不仅耗费大量时间和物资,还存在不稳定性。根据“序列决定结构、结构决定功能”这一核心思想,越来越多的科研人员开始通过数学算法和计算机技术处理大量蛋白质序列,并从中提取出有意义的结构和功能信息,进而指导和支持实验技术。生物信息学对序列数据的处理模型被广泛应用于各个研究领域,包括药物研发、疾病诊断等与人类健康息息相关的方面。 由于蛋白质的组成复杂、功能多样,蛋白质序列的分析难度会远远大于DNA和RNA序列。现有的基于蛋白质序列的分析工具,往往存在生物意义不足、可视性差、时间复杂度高、准确度低等各种局限性。鉴于此,本文从生物背景出发,结合信息学和统计学理论,提出了一种时间复杂度低且生物意义明显的蛋白质三维图形表示。之后,将其应用于蛋白质序列相似性分析和功能蛋白预测两个生物信息的重要领域中,以验证该方法的可行性。主要研究工作如下: 1.基于混沌游戏表示(CGR,Chaos Game Representation)的特点,提出了一种针对密码子的逆向CGR图形表示,并结合氨基酸的重要理化性质将蛋白质序列一对应地映射到三维空间中。逆向CGR模型能将同义密码子聚集在一起,与生物学中的摆动假说一致。之后,基于高效的动量向量提取方法,提出一种针对三维曲线的动量向量提取算法,避免了序列长度不同对应用的影响,极大降低了时间复杂度,提高了对较大数据的处理能力。 2.将新提出的三维图形表示应用于三个经典蛋白质进化分析数据集上,并与ClustalW以及最近的一些非序列比对算法比较,结果显示逆向CGR图形表示取得了相似或更好的结果,与实际生物进化关系一致。 3.为验证图形表示在其他序列分析中的有效性,本文融合图形表示提取的向量和氨基酸组分、理化性质分类后二联体组分等统计信息,结合支持向量机建立预测器。针对抗癌多肽、细菌黏附素和真核神经毒蛋白三种数据集进行学习和预测,检验方法为五折交叉验证:在抗癌多肽main和alternative数据集中准确率高达96%和97.73%,远远超过参考文献中的其他方法;在两个balanced数据集中准确率达到88.82%和86.11%,与Tyagi方法的最佳结果相似,但Tyagi在两个数据集中表现最好的方法是不同的,也即本文方法能在两个数据集都能保证很好的结果,但Tyagi的方法不太稳定;在细菌黏附素和真核神经毒蛋白数据集中预测准确率分别为92.75%和98.00%,远远超过参考文献中的其他方法。 实验证明,本文提出的三维图形表示方法,不仅具有很强的生物意义和较低的时间复杂度,还在序列相似性分析、功能性蛋白二分类预测中有出色表现,这也验证了该方法的可行性和普适性。