面向三代测序的序列比对算法研究与优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gg5921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,三代测序技术的发展为基因组学带来了重大变革和影响。但由于三代测序序列具有平均长度长、错误率高的特性,现有的三代测序序列比对算法在数据分析的工作流中占据了大量的时间。因此,如何快速、准确地将大规模的测序序列比对到参考基因组上是三代测序序列比对面临的一大挑战。目前主流算法大多采用种子扩展(seed-and-extend)方法,包括过滤出候选位置和进行比对验证两个阶段。过滤和验证是影响算法性能的关键环节,为了加快序列比对的速度,本文对过滤方法的特征选取和验证阶段的索引技术进行了较为深入的研究,主要工作和贡献如下:(1)过滤方法设计及优化对已有过滤方法进行分析,它们使用全部种子来过滤候选位置,如此要处理的种子数很多且针对性不强,导致过滤时间过长。我们的实验表明过滤时低频率的种子往往具有更高的区分度,同时低频种子也可以有效地减少计算量。基于此,本文提出了一种基于低频种子的过滤方法,根据基因组的规模动态地选取低频率的种子,使用低频种子进行投票定位候选区域。过滤得到的候选区域数目也是过滤方法的重要衡量标准。为了进一步减少候选区域的数目,我们对过滤方法进行了优化,提出了相邻窗口合并、候选窗口验证判断、变换种子区域三个启发式策略,在保证敏感度的前提下对候选位置进行再过滤。实验结果表明,当种子频率范围设置为20%时,本文提出的过滤方法可以大幅减少过滤阶段的时间消耗,比现有过滤方法快10倍左右。同时,优化后的过滤方法可以减少约70%的候选位置。(2)索引改造及验证方法改进验证阶段需要对候选区域进行扩展验证以获得最终的比对结果,现有方法通常借助索引构建最优覆盖链来减少比对的范围。但由于三代测序序列长度较长,使用全局索引时,串链阶段需要处理大量错位的无效锚点。针对这个问题,本文设计了一种分段哈希索引,并提出了基于分段哈希索引的验证方法,分别对索引和候选区域进行分段划分,利用位置关系的限制减少无效锚点的数目,加速串链过程,进而减少验证阶段的时间消耗。实验结果表明,改进后的验证方法可将验证时间提升30%以上;将本文提出的过滤方法与验证方法相结合,在拟南芥基因组和人类基因组上进行序列比对的全过程实验,与现有的三代测序序列比对算法进行了比较,整体速度提升了2-5倍。
其他文献
<正>商品流通的发展促进了包装技术的发展变革。传统的包装主要是起防护、隔离、定量、装饰和说明的作用。随着科技技术的进步和人们需求的不断增长,人们对包装的要求也越来
通过探讨中医养生学理论和养生方法的中庸思想,指出中庸、和谐、平衡是中医养生的核心思想。在保养生命的过程中,顺应四时阴阳,起居有常,劳逸适度,饮食有节,房事适当,形神共
在我国当今社会,离婚式单亲家庭越来越成为深受社会关注的群体,许多领域的专家学者都对此进行了研究,社会学研究者也从许多角度对离婚式单亲家庭问题进行了探讨。本文以社会
在国内商业银行资产业务领域,国际贸易融资业务方兴未艾。其中,信用证融资占据着极其重要的地位。本文从信用证和信用证贸易融资的概念及特点入手,重点分析了信用证类国际贸
为了补偿四旋翼无人机中微机械系统(Micro Electro Mechanical System,MEMS)陀螺仪的漂移误差,提高无人机控制的精度,设计了一种无人机MEMS陀螺仪校准单轴转台系统。由于单轴转
<正>糖尿病慢性并发症如糖尿病肾病、糖尿病心脏病、糖尿病脑血管病、糖尿病视网膜病变、糖尿病周围神经病变、糖尿病足等已成为糖尿病患者致死致残的主要原因。因其发病机理
小建中汤源于经方,目前认为其主治中焦虚寒证。本文试从《金匮要略》条文解析和方药分析等方面来论述小建中汤,认为其主治病机为津液亏损主,虚寒与虚热夹杂为次,可兼有营卫不合.
目的探讨宫颈癌术后尿潴留电针干预的最佳时机及行尿动力学检查的意义。方法观察58例宫颈癌术后尿潴留患者,将未针刺、术后第8天及术后第15天分别开始针刺的各19,19,20例患者
谷氨酸晶体在一定工艺条件下,经过从α-晶型到β-晶型的转变,不仅可以提高谷氨酸的质量,而且能够显暑提高成品味精的透光和纯度,提升味精质量。
<正>一个建筑能不能成为一个城市的地标应该由市民说了算,此后还要经过实践的检验。我们作为设计者把自己的作品奉献给这片土地,最希望它能融入这个城市,融入城市的生活。重