论文部分内容阅读
高通量测序技术可以在短时间内完成全基因组深度测序,通过对个体的全基因组或组织细胞内的全体mRNA进行高通量测序得到的测序数据在参考基因组不同区域上的分布密度差异进行分析,可以直接探究个体基因组序列异常和基因表达异常,这种诊断方法采样方式简单安全,对个体医疗的发展有着重要意义。这也为测序数据分布密度的精确分析和合理利用提出很高要求。本文主要工作是设计出一种参考模板生成算法来生成更适用于分布密度分析的参考模板。然后对测序数据在该参考模板上进行比对得到的比对分布数据设计系列分析算法。比对分布密度分析算法一方面用于定量分布密度误差,另一方面用于更好地掌握比对分布数据规律。本文最后在此基础上针对胎儿染色体数目异常方面的应用设计了一个经过改进的产前诊断系统。在本论文中,先是提出一种参考模板生成算法,用该算法生成参考模板,通过去重复来提高测序数据在参考模板上的比对速度,并且可以保证测序数据的比对数量和比对分布密度的精度。之后,本论文对比对分布密度展开系统分析。一方面,本论文用不同的GC含量偏差模型来分析GC含量对比对分布密度的影响,用于确定准确反映数据规律的GC含量偏差模型和最佳参数,进而构建GC含量偏差校正模型,以消除GC含量对比对分布密度带来的偏差。另一方面,本论文致力于对不同样本的染色体表达率进行一系列分析,在分析样本在不同染色体上所呈现出的表达率差异基础上,分析胎儿性别不同和处于不同孕期的母体血浆DNA测序数据在人类染色体组上的表达率差异,阐明胎儿性别和所处孕期对样本测序数据的染色体表达率的影响规律。最后,本文针对胎儿染色体数目异常的产前诊断设计出一个经过改进的诊断系统。该系统对孕妇血浆DNA测序数据在本论文生成的参考模板上的比对分布数据进行分析,用于诊断胎儿染色体数目异常。而该系统中GC含量偏差校正模块的加入减小了样本染色体表达率的偏差,提高了染色体表达率计算的准确度。