蛋白质结构预测的归范法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:alovey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在许多生物功能中扮演着很重要的角色,它们几乎和所有的生命活动息息相关。一种被广泛接受的观点认为蛋白质结构决定其功能,所以人们通常从它们的结构来推断蛋白质功能。传统的实验测定蛋白结构的方法有X射线晶体衍射技术、核磁共振技术和冷冻电镜技术。但是这些技术的缺点是费用高而且耗时,远远跟不上蛋白序列的增长速度。因此,蛋白结构预测计算方法被认为是一种有效的办法。  蛋白结构预测方法一般分为三类:同源建模方法、归范法和本初法。同源建模方法和归范法都依赖于已有的结构库,同源建模法对于序列等同率大于30%的情况能得出高质量的预测结构;而归范法则针对于远同源的情况(即序列等同度小于30%的情形);本初方法则不依赖于模板,但是计算速度慢,不适用于长序列、拓扑结构复杂的例子。  当前,归范法是预测精度最高的方法,在本文里面,我们提出改进归范法的两个新思路:  1.基于结构信息的序列型改进:我们知道序列谱是影响预测结果的关键因素,一个好的序列谱通常能产生更好的模板。我们认为一个高质量的序列谱在联配上的每一列的结构信息应该是一致的。但是序列谱里面大多数只包含序列信息,我们不知道它们的结构是否联配正确,于是我们引入预测的结构信息(如CLE)来提高序列谱的质量。  在本文中,我们针对HHsuite设计实验。我们发现,HHsuite搜索NR序列库建立的序列谱里面包含结构联配错误的联配,如CASP9里面的T0522。首先我们使用预测的CLE谱来衡量序列谱里面任意两条序列联配的结构相似性;然后我们将这个问题抽象成网络流问题,并用Ford-Fulkerson算法来计算最大流和最小割;我们得到一个过滤后的序列谱;最后我们比较了过滤后的序列谱和未经任何处理的序列谱在搜索同源序列表现出来的灵敏度和最好的模板。实验结果表明,在CASP9数据集上,经过我们处理的序列谱多数情况下表现出更好的性能。  2.识别保守区域:一般来讲,蛋白结构比序列保守,而在长期的进化中,为了保持功能的稳定性,一些局部的区域通常比其它区域进化得更缓慢。在蛋白结构预测中,我们常常用BLOSUM矩阵来刻画蛋白进化的速率,在这种情况下,我们需要区别对待保守区域和非保守的区域。在本文中,我们提出一种新的度量来刻画保守区域,基于这个度量,我们设计出高效的算法来寻找保守区域。
其他文献
随着信息社会突飞猛进的发展,互联网安全问题也日益受到人们的关注。国家相关部门在对互联网安全进行决策评估的同时,也要有效利用互联网技术来提高办公效率、规范办公流程、
随着计算机技术的日益普及以及互联网的迅猛发展,计算机网络规模越来越大,同时网络连接也越来越复杂,对于网络的管理人们要求也越来越高。对于网络管理来说,网络拓扑发现功能
云计算正在加速应用到各行各业,引领IT的发展方向。然而在云计算模式下用户将数据和应用转移到云服务器或者虚拟机中,可能会受到来自云内部恶意管理员和外部云用户的攻击,加
随着信息技术的不断发展,为了提高计算机支持的协同工作的效率,必须提高信息交流和共享的质和量。虚拟现实技术与CSCW技术相融合,产生了虚拟环境的概念。虚拟环境本质上是一种CS
在当今的计算机动画制作中,传统的计算机仿真技术由于其复杂性和缺乏自主性,已显得越来越繁琐,而且很难达到逼真的效果。随着人工生命技术的发展,许多先进的智能算法被应用到
互联网进入大数据时代,网络数据挖掘与分析系统应运而生。对于包括搜索引擎在内的所有网络数据挖掘与分析系统,网页都是它们重要的数据来源。为了保证网络数据挖掘与分析系统的
学位
许多互联网企业都建立了自己的平台,把自己的能力开放给了开发者。中国移动也建设了多种形式的能力开放网关,例如位置服务基础业务管理平台(LBMP)、短信网关等,但是相比现有
随着技术的发展,智能电视和头戴式增强现实(AR)/虚拟现实(VR)设备已得到广泛的应用。这些设备的应用给用户带来很好的观看体验,但同时也给用户带来了新的问题:在使用这类不能直
分析海量数据中的潜在价值,可以带来巨大的收益。Spark作为数据分析的重要平台已经被广泛地应用在大数据处理中。因其易用性,Spark SQL成为用户进行数据分析经常使用的接口。在