论文部分内容阅读
近年来,三代测序技术的发展为基因组学带来了重大变革和影响。但由于三代测序序列具有平均长度长、错误率高的特性,现有的三代测序序列比对算法在数据分析的工作流中占据了大量的时间。因此,如何快速、准确地将大规模的测序序列比对到参考基因组上是三代测序序列比对面临的一大挑战。目前主流算法大多采用种子扩展(seed-and-extend)方法,包括过滤出候选位置和进行比对验证两个阶段。过滤和验证是影响算法性能的关键环节,为了加快序列比对的速度,本文对过滤方法的特征选取和验证阶段的索引技术进行了较为深入的研究,主要工作和贡献如下:(1)过滤方法设计及优化对已有过滤方法进行分析,它们使用全部种子来过滤候选位置,如此要处理的种子数很多且针对性不强,导致过滤时间过长。我们的实验表明过滤时低频率的种子往往具有更高的区分度,同时低频种子也可以有效地减少计算量。基于此,本文提出了一种基于低频种子的过滤方法,根据基因组的规模动态地选取低频率的种子,使用低频种子进行投票定位候选区域。过滤得到的候选区域数目也是过滤方法的重要衡量标准。为了进一步减少候选区域的数目,我们对过滤方法进行了优化,提出了相邻窗口合并、候选窗口验证判断、变换种子区域三个启发式策略,在保证敏感度的前提下对候选位置进行再过滤。实验结果表明,当种子频率范围设置为20%时,本文提出的过滤方法可以大幅减少过滤阶段的时间消耗,比现有过滤方法快10倍左右。同时,优化后的过滤方法可以减少约70%的候选位置。(2)索引改造及验证方法改进验证阶段需要对候选区域进行扩展验证以获得最终的比对结果,现有方法通常借助索引构建最优覆盖链来减少比对的范围。但由于三代测序序列长度较长,使用全局索引时,串链阶段需要处理大量错位的无效锚点。针对这个问题,本文设计了一种分段哈希索引,并提出了基于分段哈希索引的验证方法,分别对索引和候选区域进行分段划分,利用位置关系的限制减少无效锚点的数目,加速串链过程,进而减少验证阶段的时间消耗。实验结果表明,改进后的验证方法可将验证时间提升30%以上;将本文提出的过滤方法与验证方法相结合,在拟南芥基因组和人类基因组上进行序列比对的全过程实验,与现有的三代测序序列比对算法进行了比较,整体速度提升了2-5倍。