DNA甲基化转移酶结合位点预测的网络正则最优化建模

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:lengningyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据建模中的高维优化问题通常通过引入正则化(Regularization)来约束模型的复杂度,提升模型的解释性,改善或者减少过拟合来提高预测精度。例如稀疏性正则化产生于信号处理领域,发展出了lasso以及压缩感知等经典模型。本论文将探讨将刻画变量之间相互关系的网络结构引入正则化,构建最优化模型,建模生物医学数据。具体而言,集成转录组,表观组、蛋白质相互作用等多组学数据,重建调控网络,构建网络正则最优化模型,预测DNA甲基化转移酶(DNA methlytransferase,DNMT)结合位点。DNMT介导的DNA甲基化在在胚胎发育和肿瘤发生等重要的生物过程中具有十分重要的作用。然而DNMT在许多组织和细胞系中的结合位点实验上难以观测,数据是缺失的,极大的阻碍了对这一重要蛋白质家族的功能和机理研究。有必要发展计算生物学方法,集成大量高通量测序技术产生的多组学数据,来预测DNMT结合位点信息。本文构建数学最优化模型,集成多组学数据,预测DNMT在基因组上的结合位点,主要的工作包括以下几个方面:(1)基于adaptive lasso正则化的逻辑回归(logistic regression,LR)模型,提出了预测DNMT结合位点的数学模型GuidingNet,来(2)集成基因表达、染色质可及性、蛋白质相互作用和基因组序列数据。主要贡献在于基于蛋白质相互作用网络及跨组织表达数据,重建调控网络,提出一种基于网络拓扑确定adaptive lasso权重的正则化优化模型。与传统的权重选择方法不同,GuidingNet考虑了转录因子之间相互作用的生物知识,极大的增强了模型的生物解释性。(3)GuidingNet模型输出与DNMT在基因组上的结合密切相关的转录因子网络。这个转录因子网络结构可解释和理解DNMT在不同组织和细胞中的结合机制。(3)GuidingNet用于DNMT在人类和小鼠的几个组织和细胞系中结合位点的预测,预测精度和特征选择方面都有良好的表现。并且GuidingNet也可进行跨组织的DNMT位点预测。(4)GuidingNet可推广到其他染色质调控因子(Chromatin regulator,CR)结合位点的预测,在人和小鼠的多个数据集上预测精度高,可选出有重要生物意义的辅助转录因子。综上,本论文提出了基于网络正则化的最优化模型GuidingNet,作为一个一般性的模型框架,可用于染色质调控因子在不同细胞环境的结合位点的预测,加深对其结合机制的认识。
其他文献
互联网如水,如何在互联网浪潮中收获新希望,时代邻里可谓在商业上把握精准。且看广州市时代夏冠明总裁如何解读新时代的互联网与商业逻辑记者:参加首届国际物业管理产业博览会
目的:评价护士组织沉默测评问卷的信效度。方法:随机抽取807名医院护士进行调查,并对问卷进行信效度检验。结果:总问卷Cronbach’sα系数为0.918,4个维度Cronbach’sα系数为
结合生产实际对他励直流电动机的机械特性和调速过程,以及直流调速系统作了简单介绍。
2 1世纪是知识经济的时代 ,终身学习成为人们生存和发展的第一需要。本文分析了新加坡应对新时代的要求 ,建立终身学习体系的措施和经验 ,如构建完善的延续教育 ,设立终身学
近年来,随着城镇化脚步的加快,人地矛盾日益突出,土地资源面临着建设性用地侵占农业用地、生态用地加速退化的压力和挑战。如何规划使用稀缺的土地资源,解决用地不均产生的土地利用结构失调现象,已成为影响区域可持续发展的迫切问题。在生产用地、生活用地和生态用地利用过程中,地区间都出现了较为突出的用地冲突问题。在这一矛盾下,本研究尝试通过对冲突强度和冲突空间差异化的分析,提出缓解措施。以环京津地区为研究区域,
用改进的旋转异构态模型和计算方法,研究聚丙烯链均方回转半径<S^2>与分子量M的关系,经计算(<S^2>/M)^0.5为0.0337nm&#183;(mol/g)^0.5,均方回转半径的温度系数为-0.35&#215;10^-3/(