【摘 要】
:
DNA结合蛋白通过与DNA相结合实现了转录、复制、选择性剪贴和甲基化等多种功能,从而对生物体的调控机制发挥着不可替代的作用,根据氨基酸序列预测其功能逐渐成为生物信息学领
论文部分内容阅读
DNA结合蛋白通过与DNA相结合实现了转录、复制、选择性剪贴和甲基化等多种功能,从而对生物体的调控机制发挥着不可替代的作用,根据氨基酸序列预测其功能逐渐成为生物信息学领域一项重要任务。随着各类蛋白质数据库的构建,越来越多研究人员开始从海量生物数据中挖掘有用信息,探索生命的意义。近年来,多种被用来预测DNA结合蛋白功能的统计学以及机器学习方法被提出并不断改进。这些方法依赖于根据蛋白质的结构以及功能特性构建的特征集合,而且在大数据集上不能取得满意的预测效果。由于构造合适的特征是一个困难的任务,因此本文提出了一种卷积神经网络与长短记忆依赖网络相结合的深度学习模型根据氨基酸序列预测DNA结合蛋白。模型使用两层卷积神经网络搜索序列功能域,通过长短记忆依赖网络保留序列中的氨基酸之间的位置依赖关系,通过自动学习特征,避免了繁琐的人工提取环节。本文介绍了几种具有代表性的氨基酸序列特征提取方法,并和传统机器学习分类算法结合进行对比试验。根据模型在平衡数据集,非平衡数据集,低冗余数据集上的实验结果,证明了深度学习模型在大规模数据集预测任务中具有明显的优势,和传统的机器学习分类算法相比,我们的模型具有更好的DNA结合蛋白预测能力。根据实验证明,CNN与LSTM结合的深度学习模型具有良好的可靠性与泛化能力,在根据原始氨基酸序列进行DNA结合蛋白预测问题上拥有显著的效果。因此该模型是一个强大的DNA结合蛋白预测工具,同时在生物信息领域具有广泛的应用前景。
其他文献
齿轮传动系统结构紧凑、传动准确,在各种类型的机械设备中得到了广泛运用。由于行星齿轮箱在工作过程中会受到内部激励以及外部激励的共同影响,因此其振动噪声问题比较突出。而齿轮箱长期处于振动环境下,设备的可靠性以及寿命都会降低。另外箱体振动时会激发空气振动不断向外界辐射噪声,而长期处于噪音环境下会威胁到人的身心健康。为了减少齿轮箱在工作中的振动以及噪声辐射,就需要进一步提高齿轮箱的工作性能,对行星齿轮箱的
近年来,随着“一带一路”等国家战略的实施,我国交通基础设施的建设突飞猛进。土工合成材料加筋土结构以其良好的工程特性广泛应用于交通基础设施建设中,其中筋土界面的摩擦
企业文化是企业所依赖的一种文化价值观。企业文化重视人的因素,强调精神文化的力量,希望用一种无形的文化力量形成一种行为准则、价值观念和道德规范,凝聚企业员工的归属感,
网格资源分配研究中,结合成熟的经济学模型成了非常重要的研究方向,而在各种经济学模型中,组合双向拍卖模型由于其非常适用于网格环境大规模、异构、动态等特点,现已经成为网
随着原油中硫含量的增加,高硫原油的加工使得炼油厂装置难以长周期安全稳定运行,含硫原油中的硫化物和氯化物在高温下发生分解和水解生成H2S和HCl,在常减压塔顶与水一起冷凝
钛合金已经在许多高科技行业如航空航天、医用金属和高级汽车行业中应用,这是得益于其低密度,高强度,优异耐腐蚀等特性。钛合金中,最典型的合金是Ti6A14V与NiTi合金,其中,Ti6
随着移动网络的快速发展,核心网安全越显重要,如果不采取安全机制,移动网络就存在安全隐患。GTP(GPRS Tunnel Protocol)协议作为核心网的核心协议,由于其自身没有任何安全保
于2012-2014年间对福建省四个主要岛屿(东山岛、火山岛、湄洲岛、平潭岛)沙滩各一个断面(站位分别为DS、SH、MZ、PT)按季度采集沉积物样品,对小型底栖动物的类群组成、丰度及分布
近年来,越来越多的诸如II型糖尿病、帕金森综合征、阿尔茨海默氏症等淀粉样沉积疾病被广泛的报道,而这些淀粉样沉积疾病也成为了困扰老年人的主要疾病之一。由于老年人体内的
近年来,伴随着科技的迅猛发展,工业生产设备也由最初的小型化、简单化、机械化,逐步向着大型化、复杂化、智能化的这几个方向发展。如何保证设备能够在安全可靠的情况下高效