论文部分内容阅读
结构变异(Structural Variation,SV)是区别于单核苷酸多态(Single nucleotide polymorphism,SNP)的一类重要基因突变。近年来,高速发展的高通量分子测序技术帮助人们精确地检测基因组结构变异及其对种群进化和复杂表型性状的影响。这些研究证明,结构变异是影响人类疾病易感性,高原环境的适应性,以及动植物农业经济性状等复杂性状的重要因素。中国地方猪种质资源丰富,具有肉质好,产子数高及抗逆性强等特点。这些特点的遗传学基础至今依然不被人们所了解。目前在世界范围内,还没有研究小组系统地研究结构变异对中国地方猪品种特性及环境适应性的影响。本实验室前期利用Illumina Hiseq 2000平台检测了64头中国地方猪全基因组序列数据(平均深度约25X)。这64头猪由10个具有代表性的中国地方猪品种和6头中国野猪组成,10个地方猪种包括来自高原地区的4个藏猪品种,中国南方地区的小型猪(巴马香,陆川和五指山猪)以及中国北方地区的民猪,河套大耳和莱芜猪。本论文对重测序数据进行质控,并使用BWA、Samtools以及GATK等软件将质控后的序列数据比对到猪参考基因组上。基于比对后生成的BAM文件,使用基于读深法(Read Depth)的CNVnator和读对法(Read Pair)的BreakDancer的两个软件检测了64头猪基因组上的结构变异。之后我们对结构变异的长度,群体频率进行了描述、研究了SVs和SNPs之间的关联性,鉴定并讨论了品种特异及与地方环境适应性相关的SVs。具体结果如下:1)SVs的基本描述性统计:经过一系列严格的质控后,我们共检测到288,431个结构变异,其中约77%为长度介于100 bp到400 bp的插入(Insertion)。同时我们检测到35,850个缺失(Deletion)、23788个拷贝数变异(Copy number variation,CNV)。所有SV总长度为563.29 Mb,占整个猪基因组20.1%。在个体水平上,每个个体携带结构变异平均长度为200Mb,占整个基因组长度的7%。通过与前人研究结果比较,本研究鉴定到SVs与其他研究的重合度为35.57%至61.06%。2)SVs和SNPs之间的关联性:本实验室前期使用GATK以及SOAPsnp在64个个体中检测到了约三千七百万个SNP。我们研究了288,431SVs和三千七百万个SNPs之间的关联性。我们计算了每一个SVs与其前后1Mb范围内的SNPs之间的Spearman相关系数r~2。结果显示69.2%的SVs周围1Mb区域内与至少一个SNP的r~2>0.5;然而在r~2>0.8的阈值下,只有15.3%的SV与周边1Mb区域内的至少一个SNP相关。因此SNPs不能完全代表SVs,只分析SNP的研究可能会遗漏一些有重要功能的SV。这些结果进一步说明了分析SVs的重要性。3)品种特异SVs,只存在于单个品种内的高频率(频率大于0.5)结构变异可能在品种的形成过程中受到选择,并和某些品种特性关联。基于此,我们在整个SV集合中鉴定了186个品种形成特异的SV。例如,在甘肃藏猪中我们鉴定到6号染色体上一个781bp的缺失,这个缺失周围分布着ST6GALNAC3和ST6GALNAC5两个基因,而这两个基因与可以缓解高原脑水肿的神经节苷脂生成有关。同时,我们还检测到南方猪中特有的基因其中包括ABI1,KIT,TYROBP等,这些基因与体型大小有关,有趣的是南方猪的体型普遍偏小。4)环境适应性相关SVs,本研究所研究的10个品种,按照地理环境的分布可以分为藏猪、南方猪以及北方猪三个组,这三个地区具有显著不同的气候条件。我们利用Fisher精确检验,鉴别到609个与三个地理区域分组显著关联的SVs。并发现这些SVs在编码区和基因的上下游区域富集,表明部分筛选出来的SVs很可能在中国地方猪环境适应中发挥功能。比如在藏猪13号染色体上我们检测到一个2kb的缺失。这个缺失与DDPA2以及DDPA4高度关联,相关研究证明这两个基因在肺部功能形成发育过程中具有重要作用,而肺部组织是和高原适应性高度相关的一个组织。5)X染色体上的SVs,在所有与环境适应相关的609个SVs中,与中国南北方冷热环境适应相关的SV有503个,占总数的82.6%;而在这503个SV中,341个(67.7%)位于在X染色体50~65 Mb的范围内,显示出X染色体这一段区域在中国南方和北方猪之间存在巨大差异,与我们此前基于SNP的结果相吻合。综上,本研究使用全基因组测序技术以及两种结构变异检测方法对64头中国地方猪共10个品种进行了研究。这些结果可以帮助更深入的理解结构变异在中国地方猪种的品种形成和环境适应过程中所起的作用,有利于中国地方猪的品种保护与利用。