序列及序列二级结构联配问题的若干算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:langya925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列联配以及序列二级结构联配是生物信息处理中最基本最重要的问题。自1970年Needleman和Wunsch提出的经典的动态规划算法以来,如何获得结果准确,时间空间效率更高的序列联配算法和软件一直是生物信息学研究中的一项重要课题。考虑实际序列联配问题中的序列具有较高的相识度,也就是说在最佳联配中各个序列中插入的空格数将不会太大,本文将待插入的空格数上限作为限制来设计序列联配算法,从而降低算法的运行时间和空间的复杂度。Needleman和Wunsch给出的运行时间和空间为O(m?n)的动态规划算法至今仍然是最为实用和有效的双序列联配算法之一,其中m,n为两条序列的长度。本文在Needleman和Wunsch的动态规划算法的基础上提出了一种在k插缺数限制下双序列联配的算法,其运行时间和空间复杂度都为O k?min?,(m n?)。同时,文中将该思想引入Hirschberg线性空间算法中,给出了一种在k插缺数限制下的双序列联配线性空间算法,其运行时间仍然为O k?min?,(m n?),但只使用线性的内存空间。大量实际数据说明一般最佳联配下插入空格数在序列长度的20%以内,因此在实验中,大部分序列将k规定在序列长度的20%,新算法可以将运行时间直接减少近50%的情况下仍然保证找到最优解,对于部分相似度高的序列,甚至可以将运行时间直接减少近85%的情况下仍然保证找到最优解。接下来,文中将参数k的思想应用到三条序列联配算法中,设计了在k插缺数限制下三条序列联配的算法,时间复杂度和空间复杂度都为2O(k?n),其中k为参数表示允许插入的最大空格数,三条序列长度均为n。在多序列联配问题中由于序列数量增加而导致计算难度陡增,引入参数k的概念也不能获得实际有效的算法。因此本文给出一种基于双序列联配的快速多序列联配启发式算法。然后以BAliBASE数据库来测试与其他算法比较,实验也验证我们的算法明显比之前的算法的准确性更好。对序列二级结构联配问题,文中同样经典的Bafna算法中引入参数k的概念。将原本时间和空间复杂度都为3 2 2O(mn?m n)的算法改进为时间和空间复杂度都为2 2 21 1O(k mn?k n)的算法,其中m、n为两条序列长度,1k是序列中允许插入的最大空格数。最后本文总结了引入参数k的概念的序列联配及序列二级结构联配问题的研究结果,并对相关工作的未来的研究方向做了展望及提出了一些问题可能的解决方法。
其他文献
随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语
无线移动自组网(Ad Hoc networks)是一种新兴的网络技术,具有单独组网能力和自组织的特点,在军事、民用、灾害营救等领域具有广泛的应用前景,已成为当前无线通信领域研究的一
当前,精细农业、精准农业思想的提出为农业的发展开辟了新的空间。高新技术应用于农业生产对于降低农作物生产成本、增加农作物产量、提高农产品质量并在生产中减少对环境的
随着Internet的快速发展,因特网上信息数据量与日俱增,当人们利用搜索引擎检索关键词,面对其返回的一个庞大的相关网页链接列表时,常常还是难以寻找到自己真正所需的资源。解决该
本课题由上海市高校科技发展基金项目“储罐远程监控单元(RTU)”、上海师范大学科研成果产业化(中试)项目和上海师大青年基金项目“新型SCADA系统的研制和应用”立项和资助。
随着全球信息化脚步的不断加快,人们对信息的需求越来越具有高效性、灵活性、广泛性和综合化的特点。但随着IT技术发展的阶段性的特点,网络上存在大量的异构数据库如对数据属性
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。目前实体间语义关系抽取研究的最大挑战是训练数据
随着Internet和移动通信技术的迅速发展,使用户随时随地通过移动终端上网成为可能。J2ME为嵌入式和移动应用开发提供了完美的解决方案。使用J2ME技术进行移动应用程序的开发
随着社会的进步和科学的发展,机器替代人工、电脑替代人脑也已经成为一种趋势和共识。因此,一切工作的自动化也就成为了人类的一个梦想,一直以来人们为了实现这个梦想而在不
随着计算机网络技术与多媒体技术的快速发展,数字产品的版权保护已经成为信息技术领域中最重要的问题之一。作为信息隐藏技术在计算机领域的一项重要应用,数字水印为保护多媒