论文部分内容阅读
相似性度量的计算在生物数据分析研究中非常重要,并且特定背景的样本有其相应的相似性计算模型。准确的表达样本间相似性度量,可以极大地提升其后续分析的效能,但是准确地构建样本间相似性计算模型,依赖于对生物规律和样本数据有完整、深度的理解。因此如何对特定问题设计出合适的相似性度量,一直是个极其有意义却又富有挑战的科学难题。早期的多数研究中,研究者总是希望面对特定问题,依靠对数据的先验理解设计出其相似性计算模型,相关的研究取得了很多研究成果,但也存在不足之处。在大数据时代背景下,各类型、情景的数据喷涌而出,依靠先验知识设计出的相似度计算模型无法有效的利用大量数据所蕴含的信息,度量学习方法即在此背景下应运而出。度量学习方法是以数据为驱动的一类机器学习算法,其目标是学习合适的度量样本间距离的函数,度量学习在人脸识别任务中得到了成功应用。近年来,度量学习方法开始应用到各类生物数据分析中,在蛋白组、基因组相关领域得到了成功应用。本文针对生物数据挖掘中的相似性计算问题,将度量学习方法应用于表达谱数据及药靶相互作用数据中,与现有方法相比,优化度量方法可有效提升数据分析任务的准确率。本文的具体工作分为两部分: 1)基因表达谱数据的分析研究:基因表达谱反映了细胞特定状态的基因转录水平,是细胞在某特定状态下的量化描述。目前广泛使用的基因表达谱间相似性度量为基于先验知识的ScoreGSEA算法。基于大规模LINCS数据集,我们利用基因表达谱数据进行了两项工作。首先是对LINCS数据集进行建库分析,挖掘出LINCS数据的可分析内容。同时对于LINCS中不同类别的数据,通过将不同的度量学习方法与ScoreGSEA模型的比较分析,发现ScoreGSEA算法并非适用于所有分析任务。将表达谱数据应用到不同分析任务,存在特定的度量方法优于ScoreGSEA算法。随后,我们将特定的度量学习方法应用到基因敲除表达谱数据的相似性网络构建中,针对大量基因缺少基因本体信息的这一问题,利用相似性网络进行聚类分析,进而构建出基因敲除的关联网络,最终推测出这些基因缺失的基因本体信息。 2)药靶相互作用预测的分析研究:药物靶标间相互作用预测对药物发现与药物重定位的研究有重要意义。现有的各类预测模型,普遍采用经典计算模型计算药物间与靶标间相似度作为模型输入。因此本文以二部图推理预测模型为基本预测器,利用药物ATC分类系统信息,构建了基于余弦值的弱监督的度量学习模型CSML,并设计出迭代式共轭梯度法优化该模型,同时也证明了该优化算法的正确性。CSML的应用显著提高了基本预测器的性能,证明了度量学习方法的有效性。