论文部分内容阅读
蛋白质序列库搜索方法为液相-串联质谱联用仪产生的高通量质谱数据提供了快速的分析方式,使生物样品中的蛋白质可以得到快速定性定量分析。然而,该过程仍然存在很多问题。本论文初步研究了蛋白质序列库搜索算法及对搜索结果进行分析的算法,并尝试采用化学计量学方法对蛋白质库搜索结果进行判别分析。
在第二章中,论文对当前广泛采用的蛋白质序列库,库搜索算法及蛋白质定性方法进行了介绍。同时对由五种不同质谱仪产生的质谱数据的SEQUEST搜索结果,及不同参数条件下的Mascot搜索结果进行对比,发现在不同条件下得到的结果相差较大,并且在所有的结果中存在大量的错误匹配。
为了对蛋白质序列库搜索结果进行分析,并最大限度地消除错误结果的影响,大量的分析算法被开发出来,论文在第三章中对这些算法进行了介绍,并尝试采用化学计量学中的模式识别方法对搜索结果进行判别分析,认为化学计量学方法可以明显消除SEQUEST搜索结果中假阳性结果的影响。但对于Mascot搜索结果,这些方法无明显提高结果中的准确率。而采用Decoy库搜索结果估计Mascot正常蛋白质库搜索结果中的错误率亦存在错误估计的风险。
因此,如何更好地提高蛋白质库搜索结果的准确率并提供更加可靠的分析方法需要得到更多的研究,第四章对蛋白质库搜索方法进行了展望。目标蛋白组学提供的新思路及当前大量共享的数据为我们在这方面进行更加深入的研究提供了机遇。