论文部分内容阅读
随着计算机技术的高速发展和广泛应用及大数据产业规模呈现几何增长,化合物定量构效活性/属性关系(quantitative structure-activity/property relationship,QSAR/QSPR)也得到了迅速发展,并上升到一个更高的水平。从最初在生物领域的应用,逐渐扩展到药物科学、环境科学、药物化学、药物设计、医学等众多领域。其目的在于通过使用各种计算学、统计学方法研究化合物的结构参数与其各种理化性质及生物活性之间的关系,从而在分子层面上了解化合物的微观结构。因其涉及的领域较为广泛,它所研究的对象包括化合物的生物活性、药物毒性、及药物在人体内的吸收速率等。特别是在环境化学领域,由于大量的有机化合物进入环境中,对自然生态系统和人类都有很大的危害性。然而,以往对QSAR的建模通常采用的都是浅层机器学习方法,例如启发式方法、多元线性回归、径向基函数神经网络、反向传播神经网络、支持向量机等模型,它们的共性是作用于样本数量少并且问题规模不是特别复杂的场景下。这便限制了其进一步处理复杂问题和海量数据时的泛化能力。近年来深度学习作为机器学习的一个分支,已经广泛的应用于多个领域,并且取得了一系列令人满意的成果。特别是在大数据时代下,更需要利用深度学习技术处理很多浅层机器学习模型无法解决的问题。本文以口服生物利用度,CYP450 1A2酶的抑制性和logKoc为研究对象,以深度学习算法为基础,建立了基于深度学习的QSAR分类和logKoc预测模型,主要内容由三个部分组成。第一部分以口服生物利用度为研究对象,通过分子计算软件生成2D和3D分子特征作为栈式自编码模型的输入,让其自动学习分子的特征,利用softmax实现口服生物利用度分类。并与一些浅层模型(支持向量机和人工神经网络)做对比,来验证基于栈式自编码模型对口服生物利用度分类的有效性。第二部分为基于深度信念网络的CYP450 1A2抑制性分类模型,试验选取13000个化合物作为数据集,采用PubChem和MACCS分子指纹进行分子结构表征,利用DBN的半监督学习方式从预处理后的特征中学习更本质的特征表达,避免人工提取特征的过程,实现CYP450 1A2的抑制性分类。第三部分为基于无向图递归神经网络(UGRNN)的深度学习方法。首先将化合物分子结构表示成无向图的形式,然后利用递归神经网络对分子图结构进行特征抽取,实现对logKoc的预测。此外该模型结合用皮尔逊相关系数法找出脂水分配系数(logP)作为另一输入(简称UGRNN+logP),进一步提升了预测精度。