论文部分内容阅读
蛋白质在许多生物功能中扮演着很重要的角色,它们几乎和所有的生命活动息息相关。一种被广泛接受的观点认为蛋白质结构决定其功能,所以人们通常从它们的结构来推断蛋白质功能。传统的实验测定蛋白结构的方法有X射线晶体衍射技术、核磁共振技术和冷冻电镜技术。但是这些技术的缺点是费用高而且耗时,远远跟不上蛋白序列的增长速度。因此,蛋白结构预测计算方法被认为是一种有效的办法。 蛋白结构预测方法一般分为三类:同源建模方法、归范法和本初法。同源建模方法和归范法都依赖于已有的结构库,同源建模法对于序列等同率大于30%的情况能得出高质量的预测结构;而归范法则针对于远同源的情况(即序列等同度小于30%的情形);本初方法则不依赖于模板,但是计算速度慢,不适用于长序列、拓扑结构复杂的例子。 当前,归范法是预测精度最高的方法,在本文里面,我们提出改进归范法的两个新思路: 1.基于结构信息的序列型改进:我们知道序列谱是影响预测结果的关键因素,一个好的序列谱通常能产生更好的模板。我们认为一个高质量的序列谱在联配上的每一列的结构信息应该是一致的。但是序列谱里面大多数只包含序列信息,我们不知道它们的结构是否联配正确,于是我们引入预测的结构信息(如CLE)来提高序列谱的质量。 在本文中,我们针对HHsuite设计实验。我们发现,HHsuite搜索NR序列库建立的序列谱里面包含结构联配错误的联配,如CASP9里面的T0522。首先我们使用预测的CLE谱来衡量序列谱里面任意两条序列联配的结构相似性;然后我们将这个问题抽象成网络流问题,并用Ford-Fulkerson算法来计算最大流和最小割;我们得到一个过滤后的序列谱;最后我们比较了过滤后的序列谱和未经任何处理的序列谱在搜索同源序列表现出来的灵敏度和最好的模板。实验结果表明,在CASP9数据集上,经过我们处理的序列谱多数情况下表现出更好的性能。 2.识别保守区域:一般来讲,蛋白结构比序列保守,而在长期的进化中,为了保持功能的稳定性,一些局部的区域通常比其它区域进化得更缓慢。在蛋白结构预测中,我们常常用BLOSUM矩阵来刻画蛋白进化的速率,在这种情况下,我们需要区别对待保守区域和非保守的区域。在本文中,我们提出一种新的度量来刻画保守区域,基于这个度量,我们设计出高效的算法来寻找保守区域。