论文部分内容阅读
大数据建模中的高维优化问题通常通过引入正则化(Regularization)来约束模型的复杂度,提升模型的解释性,改善或者减少过拟合来提高预测精度。例如稀疏性正则化产生于信号处理领域,发展出了lasso以及压缩感知等经典模型。本论文将探讨将刻画变量之间相互关系的网络结构引入正则化,构建最优化模型,建模生物医学数据。具体而言,集成转录组,表观组、蛋白质相互作用等多组学数据,重建调控网络,构建网络正则最优化模型,预测DNA甲基化转移酶(DNA methlytransferase,DNMT)结合位点。DNMT介导的DNA甲基化在在胚胎发育和肿瘤发生等重要的生物过程中具有十分重要的作用。然而DNMT在许多组织和细胞系中的结合位点实验上难以观测,数据是缺失的,极大的阻碍了对这一重要蛋白质家族的功能和机理研究。有必要发展计算生物学方法,集成大量高通量测序技术产生的多组学数据,来预测DNMT结合位点信息。本文构建数学最优化模型,集成多组学数据,预测DNMT在基因组上的结合位点,主要的工作包括以下几个方面:(1)基于adaptive lasso正则化的逻辑回归(logistic regression,LR)模型,提出了预测DNMT结合位点的数学模型GuidingNet,来(2)集成基因表达、染色质可及性、蛋白质相互作用和基因组序列数据。主要贡献在于基于蛋白质相互作用网络及跨组织表达数据,重建调控网络,提出一种基于网络拓扑确定adaptive lasso权重的正则化优化模型。与传统的权重选择方法不同,GuidingNet考虑了转录因子之间相互作用的生物知识,极大的增强了模型的生物解释性。(3)GuidingNet模型输出与DNMT在基因组上的结合密切相关的转录因子网络。这个转录因子网络结构可解释和理解DNMT在不同组织和细胞中的结合机制。(3)GuidingNet用于DNMT在人类和小鼠的几个组织和细胞系中结合位点的预测,预测精度和特征选择方面都有良好的表现。并且GuidingNet也可进行跨组织的DNMT位点预测。(4)GuidingNet可推广到其他染色质调控因子(Chromatin regulator,CR)结合位点的预测,在人和小鼠的多个数据集上预测精度高,可选出有重要生物意义的辅助转录因子。综上,本论文提出了基于网络正则化的最优化模型GuidingNet,作为一个一般性的模型框架,可用于染色质调控因子在不同细胞环境的结合位点的预测,加深对其结合机制的认识。