含假结RNA二级结构的预测算法设计及软件开发

来源 :中国农业科学院 | 被引量 : 0次 | 上传用户:justoka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前预测含假结RNA二级结构的精度普遍不高。经过深入了解多种算法及能量模型,发现预测假结的精度仍有很大的发展空间。本文在前人研究的基础上,设计出一种新颖的启发式算法——mergeStem,该算法显著提高了含假结RNA二级结构的预测精度,将为研究人员提供更为可靠的结构参考。在所有的预测算法中,启发式算法能很好的预测假结,且不受同源序列的限制。通过分析启发式算法,发现其预测精度与两个因素紧密相关:(1)局部搜索范围;(2)假结能量模型。本文围绕这两个核心因素展开研究。(1)一方面能量模型由于不完善,有时会误导算法的预测结果;另一方面,算法的预测准确度随着局部搜索范围的扩大,先升高,后降低。这表明只有局部搜索范围大小合适时,算法才能发挥其预测潜能。局部搜索范围有两层含义:茎搜索范围和结构保留范围。为了找到合适的范围,我们通过统计大量的已知RNA二级结构,重新估计了这两个范围。新范围将有助于提高mergeStem的预测精度。(2) D&P假结模型引入了多分支环的计算方式,因此在计算假结的能量时,仅考虑了假结中的配对碱基与未配对碱基的总数。该模型可以对不同类型的假结进行了有效罚分,却很难区分同类型的不同假结。为了更好反映假结之间的区别,通过观察大量的假结数据,在D&P模型的基础上,引入了空隙罚分(Gap)与短茎罚分(Short)。这两个新因子的加入,更能反映不同假结的真实情况,有利于改善算法的预测精度。结合上面的研究,我们设计出mergeStem算法,并用Java语言编写成一套能有效预测含假结RNA二级结构的软件mergeStem v1.0。软件的操作界面简洁、直观,易于使用;用户可以根据自己的需要,调整局部搜索范围、多分支环的参数以及假结中的各种参数;软件最后输出预测结构的CT文件,用户可以将此文件使用PseudoViewer 3.0软件(或网络版工具)直接画成RNA二级结构平面图。为了检验mergeStem的性能,我们从可靠的数据源或文献中,选取了350条不含假结的RNA序列结构数据以及258条含假结的RNA序列结构数据作为测试数据集,并将预测结果与近年来国际上流行的pknotsRG、FlexStem、HotKnots、PKNOTS以及ILM等五个算法进行比较。比较结果如下:(1)对于258条含假结的序列,mergeStem的预测结果显著优于其他算法:在预测PK31,PL7及PK220时,其敏感性比第二名分别高6%、9%及6%;特异性分别高4%、17%及1%;正控制(PC)分别多4、2及21个假结。(2)对于350条不含假结的序列, mergeStem稍优于其他算法:在预测tRNA-200和5S rRNA-150时,其敏感性比第二名分别高1%和2%;特异性分别高3%和6%;负控制(NC)虽然不及pknotsRG及PKNOTS,但优于其他算法。使用10条长度不等的序列结构数据评估了mergeStem预测的运行时间,mergeStem除了比ILM明显慢外,只是比pknotsRG,和FlexStem的速度稍慢,因此新算法在预测精度显著提高的前提下,运算效率基本与近年来国际上类似的流行软件平均水平相当。综上所述,本文设计的mergeStem算法,一方面改善了预测含假结RNA二级结构的启发式算法的研究,提高了预测精度;另一方面对应的软件mergeStem v1.0将为生物学研究人员提供更为可靠的辅助工具。在实用性上虽然可以预测长度在1500nt左右的含假结的序列,但序列长度超过500nt后,预测的稳定性受到影响。
其他文献
当前,受全球化影响及城市化的快速推进,城市建设中出现了盲目模仿,城市面貌日趋雷同,城市特色不断消失的现象,“千城一面”成为时下城市景观形象的代名词.如何在城市的规划建
以间二氯苯为原料、La2O3为催化剂,在KOH水溶液中水解生成间苯二酚.在高压反应釜中考察了反应温度、催化剂、pH、物料配比及搅拌速率对反应结果的影响.实验结果表明,间二氯苯
自2006年“非遗”保护工作全面开始以来,枣庄市共确定非遗线索2838条,有价值项目1867个。在此基础上成功申报柳琴戏和鲁班传说为国家级非物质文化遗产名录,现有国家级非遗项
随着生命科学技术的不断进步和创新,传统的生物反应器系统已不能满足日益增长的各类需求,生物反应器系统正逐渐向高通量、高效率、自动化和低成本的方向发展,而高通量微小型
随着我国社会发展速度的加快,人们越来越关注自身的健康,而中老年人作为健身群体中的特殊人群,更是成为体育锻炼领域研究的重点对象。如何系统、科学、有效的进行体育娱乐活
主持人短评,形式上是对新闻的一种依附,但其本质是对新闻进行提炼和升华。文章认为主持人"一句话"式的短评是新闻评论的重要形式之一,具有归纳总结、引发思考、引导舆论、净
<正>"塘上钲声隔岭闻,黔山积翠楚山分。"素有"八山一水一分田"的贵州,既经历过百年一遇的冰冻雪凝灾害,又经历过夏秋的抗旱救灾。这之间,总活跃着一支队伍——贵州省农村信用
总结了高抛自密实钢管混凝土在我国的工程应用,分析了抗压强度、工作性、自密文混凝土配合比、施工过程等方面,提出了主动高抛与被动高抛的概念,展望了高抛自密实钢管混凝土研究
经过多年的探索,中医舌象自动化分析研究已经取得一定的成果。但是,在中医舌象分析仪产品化过程中,目前仍然存在很多问题,如主客观舌图像颜色重现不协调、舌图像自动分割准确性和鲁棒性难以满足全自动精准分割需求等。这些难点在很大程度上限制了中医舌象自动化分析技术的产品化。近年来,随着计算资源的提升,深度学习技术在计算机视觉领域迅速发展,并被广泛用于各种回归问题和图像语义分割等任务,性能远超传统算法。这为有效
我国电子政务建设从2002年开始已取得了巨大的进展。主要表现在:第一,各个部委包括一些地方部门的核心业务信息系统基本上开发完成。第二,公共服务意识加强,公众对政府电子政