论文部分内容阅读
肿瘤细胞与正常细胞的差异甲基化分析是癌症表观遗传学研究的重要内容之一。肿瘤组织往往由肿瘤细胞、正常细胞、侵入免疫细胞等多组织混合而成,其中正常细胞的混入对随后的差异甲基化分析有较大影响,但目前尚未有差异甲基化分析的工作考虑到肿瘤细胞纯度的影响。基于多种基因组学数据预测抗癌药物的敏感性是实现肿瘤个体化医疗的核心步骤。目前,针对药物敏感性预测问题的研究大多利用各种基因组学数据对药物敏感值进行稀疏回归分析,对于单个药物逐一建模。此类方法忽略了药物自身分子特征对药物敏感性的影响,对大部分药物的预测准确度难以达到临床应用的要求。 本论文对上述两个计算生物学问题进行了系统的研究。对于肿瘤细胞纯度估计问题,我们首先利用了肿瘤与正常组织中差异最显著的若干位点进行了密度估计,建立了基于这些位点的纯度估计模型。预测的结果与基于拷贝数、基因表达和二代测序得到的结果高度一致。基于上述纯度估计的结果,我们利用广义线性模型建立了考虑到肿瘤纯度的肿瘤-正常差异甲基化位点估计模型,针对肺腺癌、结直肠癌的差异甲基化分析表明,考虑到肿瘤纯度的方法比原有的秩和检验在差异位点个数、肿瘤间统计量一致性等指标上表现更优。对于抗癌药物敏感性预测问题,我们首先研究了基因组特征相似的细胞系对于同一个药物,以及化学相似的药物对于同一个细胞系之间药物敏感性的相似性。随后构建了细胞系-药物双层网络模型,并提出局部线性方法预测抗癌药物对于细胞系的敏感性。预测结果显示,相比现有的“弹性网络回归”等稀疏回归方法,双层网络方法利用更少的模型参数和特征信息,却具有更高的预测准确度。我们也对”癌症基因组计划”(CGP)中缺失的敏感性数据进行了补充,结果表明BRAF突变的细胞系对三个MEK抑制剂敏感性更高,这与实验得到的结果一致。