论文部分内容阅读
目前预测含假结RNA二级结构的精度普遍不高。经过深入了解多种算法及能量模型,发现预测假结的精度仍有很大的发展空间。本文在前人研究的基础上,设计出一种新颖的启发式算法——mergeStem,该算法显著提高了含假结RNA二级结构的预测精度,将为研究人员提供更为可靠的结构参考。在所有的预测算法中,启发式算法能很好的预测假结,且不受同源序列的限制。通过分析启发式算法,发现其预测精度与两个因素紧密相关:(1)局部搜索范围;(2)假结能量模型。本文围绕这两个核心因素展开研究。(1)一方面能量模型由于不完善,有时会误导算法的预测结果;另一方面,算法的预测准确度随着局部搜索范围的扩大,先升高,后降低。这表明只有局部搜索范围大小合适时,算法才能发挥其预测潜能。局部搜索范围有两层含义:茎搜索范围和结构保留范围。为了找到合适的范围,我们通过统计大量的已知RNA二级结构,重新估计了这两个范围。新范围将有助于提高mergeStem的预测精度。(2) D&P假结模型引入了多分支环的计算方式,因此在计算假结的能量时,仅考虑了假结中的配对碱基与未配对碱基的总数。该模型可以对不同类型的假结进行了有效罚分,却很难区分同类型的不同假结。为了更好反映假结之间的区别,通过观察大量的假结数据,在D&P模型的基础上,引入了空隙罚分(Gap)与短茎罚分(Short)。这两个新因子的加入,更能反映不同假结的真实情况,有利于改善算法的预测精度。结合上面的研究,我们设计出mergeStem算法,并用Java语言编写成一套能有效预测含假结RNA二级结构的软件mergeStem v1.0。软件的操作界面简洁、直观,易于使用;用户可以根据自己的需要,调整局部搜索范围、多分支环的参数以及假结中的各种参数;软件最后输出预测结构的CT文件,用户可以将此文件使用PseudoViewer 3.0软件(或网络版工具)直接画成RNA二级结构平面图。为了检验mergeStem的性能,我们从可靠的数据源或文献中,选取了350条不含假结的RNA序列结构数据以及258条含假结的RNA序列结构数据作为测试数据集,并将预测结果与近年来国际上流行的pknotsRG、FlexStem、HotKnots、PKNOTS以及ILM等五个算法进行比较。比较结果如下:(1)对于258条含假结的序列,mergeStem的预测结果显著优于其他算法:在预测PK31,PL7及PK220时,其敏感性比第二名分别高6%、9%及6%;特异性分别高4%、17%及1%;正控制(PC)分别多4、2及21个假结。(2)对于350条不含假结的序列, mergeStem稍优于其他算法:在预测tRNA-200和5S rRNA-150时,其敏感性比第二名分别高1%和2%;特异性分别高3%和6%;负控制(NC)虽然不及pknotsRG及PKNOTS,但优于其他算法。使用10条长度不等的序列结构数据评估了mergeStem预测的运行时间,mergeStem除了比ILM明显慢外,只是比pknotsRG,和FlexStem的速度稍慢,因此新算法在预测精度显著提高的前提下,运算效率基本与近年来国际上类似的流行软件平均水平相当。综上所述,本文设计的mergeStem算法,一方面改善了预测含假结RNA二级结构的启发式算法的研究,提高了预测精度;另一方面对应的软件mergeStem v1.0将为生物学研究人员提供更为可靠的辅助工具。在实用性上虽然可以预测长度在1500nt左右的含假结的序列,但序列长度超过500nt后,预测的稳定性受到影响。