参考基因压缩库间快速迁移算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:SongSan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序费用的降低以及精准医疗和基因深度学习等新兴技术对基因大数据的需要,目前已进入一个基因数据爆发的时代。面对如此海量的基因数据,如何存储和传输这些数据成为当前研究的一个热点,基于参考基因组的压缩算法以其压缩率高的特点被广泛应用于各大基因库中。同时,这类压缩算法依赖于参考基因数据,这也严重的制约了该类压缩算法产生的压缩数据的共享、合并和传送等应用。本文主要针对不同压缩基因库由于采用的参考基因的不同而无法直接共享的问题进行深入研究,提出了一套快速转换基于不同参考基因的压缩数据进行参考序列的转换。主要工作包括:(1)对多种基因压缩算法进行分类,针对不同的基因压缩算法分别讨论其特点。并对几种最新的基于参考基因组的压缩算法进行详细分析。(2)针对相同压缩算法不同参考序列的基于参考基因组的压缩算法进行快速的参考基因转换算法研究。该算法主要利用参考基因组序列之间的相似性来进行参考序列的快速迁移。实验结果表明迁移所需时间远低于原始的解压再压缩方法,同时也为后面的研究指明方向。(3)在(2)的基础上进行拓展,针对不同压缩算法不同参考序列迁移研究,我们选取三种压缩算法进行分析提取共性,并结合三种压缩算法的特点,在(2)快速迁移算法基础上提高迁移后压缩基因的压缩率,设计了两种迁移算法来实现三种压缩算法的相互迁移。并通过大量的实验验证了算法的高效性。(4)最后针对龙芯平台我们实现了一套完整的具备基因压缩、迁移和解压功能的基因数据管理工具TReC。并对其进行性能分析,然后通过多进程对龙芯平台上的TReC进行性能优化,使其能充分利用龙芯多核来加速TReC的运行速度。本文在基于参考基因组压缩算法过于依赖参考序列的基础上,提出了两个有效的迁移算法,在迁移时间上具有很大优势,这些技术可以有效的缓解基于参考基因组压缩基因库之间相互迁移的问题,也为后续相关研究提供经验和借鉴。
其他文献
随着真实世界的复杂网络规模变大,对于网络全局信息很难把握,一些经典的社团发现方法的时间复杂度也随之变高。因此,一种基于网络局部信息的局部社团发现方法被提出来。局部
随着云计算等新技术的快速发展、社交网络等新型互联网应用的兴起,人类获取和存储数据的规模正以前所未有的速度爆炸式增长,与大规模图数据相关的技术变革成为学术界和工业界
本文总共分为五章,第一章我们主要是介绍了随机生物数学的背景知识、基本概念和一些主要的定理。第二章主要是研究了一类具有时滞和B-D功能响应函数的随机捕食系统的动力学性
产品架构直观反应了产品设计的结果,对企业创新战略的各个环节产生直接影响,这些影响发生在成本和时间、供应链管理、商业模式创新、产品创新、竞争优势、平台领导力等方面,
高精度、高集成度电路板中布线密集,强弱信号交织,在外界强电磁场干扰下容易诱发气体放电现象。前人对于气体放电现象进行了大量的研究,总结了气体放电的主要机理和规律,然而
量价关系一直都是金融学研究的重点,学者们提出了不同的假说来解释量价关系,例如序贯信息到达假说和混合分布假说。然而在不同市场的实证分析得到了两种假说验证的混合结论,
随着3D硬件的快速发展、3D游戏的普及以及3D打印技术的成熟,三维模型被广泛的传播和应用。然而,人们在享受三维模型带来的逼真视觉感受的同时,不法分子对模型的破坏操作也变
近年来我国物流行业发展迅速,各家物流企业之间竞争加剧,物流企业为了寻求新的利润增长点,拓宽业务范围,纷纷打破传统业务格局,尝试将物流与金融结合,发展物流金融,由此,物流
数据挖掘是在大数据集中通过一定的算法挖掘出对人们有用的知识和信息,数据挖掘在当今时代社会生活中应用非常的广泛。聚类分析算法是数据挖掘中最为主要的研究领域之一,聚类
不确定数据处理技术和数据挖掘技术已经在诸多的领域中得到了广泛的应用,在两者结合的一个领域中,对于不确定数据聚类算法的研究已成为当前的一个大的研究热点。由于在不确定