论文部分内容阅读
主要组织相容性复合体(major histocompatibility complex,MHC)是编码主要组织相容性抗原的基因群。MHC家族基因(MHC-Ⅰ、MHC-Ⅱ、MHC-Ⅲ)编码的分子表达于细胞的表面,主要参与抗原递呈、细胞间相互识别及诱导免疫应答过程,同时也参与了生殖、大脑发育等过程。由于MHC的生物学特性,同基因组的其他区域相比,MHC与更多的疾病相关。从遗传学角度来看,由于MHC的多态性与其广泛的连锁不平衡现象,大多数MHC相关疾病的致病变异和多态性及其驱动力是很难断定的。随着对MHC的研究,有一点已经成为共识:在MHC区域,单纯的结构变异不能独立的解释疾病。因此当前对于MHC研究开始关注那些在很大程度上影响表型多样性和疾病易感性的调节性DNA,而DNA酶Ⅰ超敏感位点(DNaseI hypersensitive site,DHS)作为调节性D NA序列的标志受到科学家的关注,当前,已发现的所有顺式作用元件(增强子、启动子、绝缘子、沉默子以及基因座位控制区)都与DHS偶联。目前利用DHS-seq芯片技术在复杂的基因组中寻找基因调控序列已经被证明是一个非常成功且可验证的方法,已广泛应用于研究,因此大量的DHS数据正在不断产出,DHS图谱的构建也已经被纳入ENCODE计划与人类表观基因组计划。此研究中,我们结合DHS数据库与功能基因组学数据库,使用生物信息学方法,分析了不同物种MHC区域内DHS的分布,并对其进行进化选择分析,推断这些DHS在进化上的意义,之后对进化上显著加速或保守的DHS进行功能分析。得出的结果如下:(1)在ENCODE数据库136个人类细胞系的DHS数据中,检测到MHC区域的DHS 4867个,大部分分布在内含子和基因间区,分布在启动子区及编码外显子区的DHS只有很小一部分,揭示了DHS在人类MHC区域的分布特征。(2)使用Crawford课题组建立的灵长类DHS数据库,分别在人类、黑猩猩、恒河猴成纤维细胞的MHC区域检测到1885、2507、1736个DHS,其中有993个DHS在人类成纤维细胞中是特有的,1608个在黑猩猩成纤维细胞中是特有的,987个在恒河猴成纤维细胞中是特有的,920个DHS是三个物种一起共有拥有的。之后通过分析每个DHS到下游相邻基因的距离,本研究发现共有的DHS更接近下游基因。这可能预示着共有的DHS相对保守,调节着物种间共同拥有的性状。(3)结合六个灵长类(人类、黑猩猩、大猩猩、红毛猩猩、猕猴、狨猴)的基因组序列数据,对MHC区域的DHS进行了正选择与纯化选择分析,结果显示:与中性模型相比,有1个DHS在六个灵长类中的进化均显著加速,127个DHS在六个灵长类中均显著保守,139个DHS在除了人类以外的另外五个灵长类中均显著保守;与五种非人灵长类相比,24个DHS在人类中的进化速度显著加快。这些快速进化的人类DHS可能在驱动灵长类MHC区域进化中发挥重要作用。(4)在上述快速进化的人类24个DHS上,我们发现了9个人类获得的转录因子结合位点。其中4个与繁殖适合度有关(SOX9,OLF1,ER,andSP3),3个与癌症有关(HICI,GATA1,和TP53),2个与大脑发育有关(GLI3,BEN)。这些结果为MHC的功能探索提供了新的证据。(5)根据欧洲分子生物实验室与欧洲生物信息研究所(The European Molecular Biology Laboratory and European Bioinformatics Institute,EMBL-EBI)汇总的全基因组关联研究数据库,在MHC区域的DHS内找到141个与疾病相关的SNP,并且推断SNP可能通过影响DHS来作用于致病基因。为MHC区域内的疾病相关性结构变异研究提供了新的视野。