基于混沌游戏表示的蛋白质3D图形表示及其应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:xuanxuaner8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类蛋白质组计划(HPP)的启动和后基因组时代的来临,生物领域产生了海量的蛋白质序列数据。应用分子生物学手段处理和分析这些序列不仅耗费大量时间和物资,还存在不稳定性。根据“序列决定结构、结构决定功能”这一核心思想,越来越多的科研人员开始通过数学算法和计算机技术处理大量蛋白质序列,并从中提取出有意义的结构和功能信息,进而指导和支持实验技术。生物信息学对序列数据的处理模型被广泛应用于各个研究领域,包括药物研发、疾病诊断等与人类健康息息相关的方面。  由于蛋白质的组成复杂、功能多样,蛋白质序列的分析难度会远远大于DNA和RNA序列。现有的基于蛋白质序列的分析工具,往往存在生物意义不足、可视性差、时间复杂度高、准确度低等各种局限性。鉴于此,本文从生物背景出发,结合信息学和统计学理论,提出了一种时间复杂度低且生物意义明显的蛋白质三维图形表示。之后,将其应用于蛋白质序列相似性分析和功能蛋白预测两个生物信息的重要领域中,以验证该方法的可行性。主要研究工作如下:  1.基于混沌游戏表示(CGR,Chaos Game Representation)的特点,提出了一种针对密码子的逆向CGR图形表示,并结合氨基酸的重要理化性质将蛋白质序列一对应地映射到三维空间中。逆向CGR模型能将同义密码子聚集在一起,与生物学中的摆动假说一致。之后,基于高效的动量向量提取方法,提出一种针对三维曲线的动量向量提取算法,避免了序列长度不同对应用的影响,极大降低了时间复杂度,提高了对较大数据的处理能力。  2.将新提出的三维图形表示应用于三个经典蛋白质进化分析数据集上,并与ClustalW以及最近的一些非序列比对算法比较,结果显示逆向CGR图形表示取得了相似或更好的结果,与实际生物进化关系一致。  3.为验证图形表示在其他序列分析中的有效性,本文融合图形表示提取的向量和氨基酸组分、理化性质分类后二联体组分等统计信息,结合支持向量机建立预测器。针对抗癌多肽、细菌黏附素和真核神经毒蛋白三种数据集进行学习和预测,检验方法为五折交叉验证:在抗癌多肽main和alternative数据集中准确率高达96%和97.73%,远远超过参考文献中的其他方法;在两个balanced数据集中准确率达到88.82%和86.11%,与Tyagi方法的最佳结果相似,但Tyagi在两个数据集中表现最好的方法是不同的,也即本文方法能在两个数据集都能保证很好的结果,但Tyagi的方法不太稳定;在细菌黏附素和真核神经毒蛋白数据集中预测准确率分别为92.75%和98.00%,远远超过参考文献中的其他方法。  实验证明,本文提出的三维图形表示方法,不仅具有很强的生物意义和较低的时间复杂度,还在序列相似性分析、功能性蛋白二分类预测中有出色表现,这也验证了该方法的可行性和普适性。
其他文献
近年来,一种新型的称为代数攻击的密码分析方法逐渐吸引了人们的注意。代数攻击是对具体密码系统问题通过某种方法转化为多元方程组而求解的方法。本文通过对基于Groebner基
随着大数据时代的降临和科学技术的飞速发展,经济全球化已成常态,国内外市场的竞争趋于白热化,愈加强劲的竞争对手和日益复杂的竞争环境将会成为企业不得不面对的两大难题。现如今,任何一种产品的生产都不是由一个公司来完成的,而是由不同的企业协作完成的。这一系列相互联系、相互制约的企业网络就构成了供应链。企业想要在产品市场占据一席之地,其最强有力的保障就是所在的供应链。本文主要探讨的是装配系统的供应链协同机制
图论的研究已有200多年的历史。图论起源于1736年Euler发表的一篇论文,他用图论的方法解决了哥尼斯堡(Konigsberg)七桥问题。自二十世纪六十年代以来,图论得到迅速发展,涌现了大
Sturm-Liouville问题起源于十九世纪初,是傅立叶为了解决固体的热传导问题而建立的数学模型。它的理论应用十分广泛,已涉足于数学、物理和地球气象学等现代科学领域,逐步成为数
在市场需求不确定的情况下,本文对以下两种类型的供应链分别进行了研究:由一个供应商和一个零售商组成的供应链、由一个供应商和两个零售商组成的供应链。  一、对由一个供
部分线性模型是一种重要的半参数统计模型,纵向数据是指对同一样本或同一组样本在不同时间或空间上进行重复观测而得到的数据。这一特点决定了纵向数据既能更好地分析出样本随
遗传算法是一类模仿生物进化过程的优化方法。近年来不仅在理论上形成了一套较为完善的算法体系,并且它的应用范围也得到较大的发展。同时遗传算法在不断的被改进,有些改进方