论文部分内容阅读
基因本体主要用于描述基因和基因产物的属性,其由细胞成分、生物过程和分子功能三个子本体组成。基于基因本体比较基因之间的功能相似度,对基因功能分析和预测等问题具有重要的研究意义;基于数据融合思想,利用多种类型生物数据挖掘人类疾病基因成为当前的研究热点。本文从基因本体出发,对基因功能相似度计算方法,基因功能相似度计算加速方法,人类基因功能相似网络的构建与纯化和人类疾病基因预测等计算问题,进行深入研究。具体内容主要包括以下四个方面:(1)提出基于加权继承语义的基因功能相似度计算方法为解决基因功能相似度的准确计算,本文提出一种基于加权继承语义的计算方法。首先,针对当前方法在计算术语语义信息量时,无法准确表示术语特异性的缺陷,本文充分挖掘术语在基因本体中的结构信息,重新定义术语语义信息量的计算模型;其次,针对当前方法在计算术语集合的语义信息量时,忽略术语之间的语义重叠关系,从而导致注释术语集合语义信息量的计算存在偏差的问题,本文提出加权继承语义的概念,即将术语语义分为加权继承语义和扩展语义两部分,并以此概念出发度量术语集合的语义信息量。最后,利用基因注释术语集合之间的语义重叠率计算两个基因之间的功能相似度。实验结果表明,本文提出的基因功能相似度计算方法在多组测试数据上表现突出,说明该方法能够更加准确地度量基因之间的功能相似度。(2)提出基于哈希策略的基因功能相似度计算加速方法随着对基因本体研究的逐步深入和生物实验技术的快速进步,高效地计算大规模基因之间的功能相似性成为一个难点。为解决当前基因功能相似度算法和相关工具计算效率低的问题,本文借助计算机学科“空间”换“时间”的思想,提出一种基于哈希策略的基因功能相似度计算加速方法。该算法主要分为两个步骤:首先将信息的存储方式,从基因本体结构(有向无环图)转为哈希结构;然后基于构建完成的哈希表,实现基因之间功能相似性的快速计算。借助于构建的哈希表,基因功能相似度计算方法可以从哈希表读取所需的必要信息,从而避免重复地遍历基因本体结构。时间复杂度分析表明,本文提出的计算策略可以显著提高基因功能相似度计算方法的计算效率。实验结果显示,与其它典型的方法相比,本文提出的方法在全基因组范围内计算基因功能相似度具有更大的速度优势。(3)提出基于参考网络纯化基因功能相似网络方法从网络层面系统地研究分子之间的相互关系是后基因组时代的一项重要研究内容。近年来,基因功能相似网络与其它传统的生物分子网络一样受到越来越多的关注。然而,基因功能相似网络是一个全连接网络,该网络中存在“噪声”。因此,本文提出基于参考网络,对基因功能相似网络进行纯化的方法。该方法主要分为三个步骤:首先,针对单一基因功能相似度计算方法的结果存在偏差的缺点,本文利用多种计算方法的结果构建多数据集成的基因功能相似网络;然后,利用多种人类蛋白质互作网络,充分挖掘基因在网络中的拓扑结构,度量基因之间的拓扑相似性,从而构建高质量的参考基因关联网络;最后,基于参考基因关联网络,对多数据集成的基因功能相似网络进行纯化。实验结果表明:纯化后的基因功能相似网络在拓扑结构和节点度分布等方面,与其它典型的分子互作网络保持一致,说明该网络符合生物分子网络的特征;在蛋白质复合体预测实验上的优秀表现,进一步说明该网络的合理性和有效性。(4)提出基于基因相似网络的疾病基因挖掘方法查找人类疾病基因有助于对疾病的预防和治疗。现有方法通常利用传统分子互作网络挖掘疾病基因并取得了一些成果。然而,分子互作网络存在假阳性和低覆盖率的缺点,因此实验结果有待于进一步提高。本文基于数据融合思想,利用基因及其产物的多种生物数据,构建多数据集成的基因相似网络,扩大人类疾病基因的挖掘范围。具体来讲,首先利用基因本体注释信息,基因表达蛋白质的序列信息和结构域信息,分别构建基因相似网络;其次,采用相似网络融合方法,将上述基因相似网络融合,从而得到多数据集成的基因相似网络;然后,利用疾病表型相似网络,疾病-基因关联网络和多数据集成的基因相似网络,构建疾病-基因异构双层网络模型;最后利用带重启的随机游走算法挖掘人类疾病基因。实验结果表明:与其它同类方法相比,本文提出的方法可以扩大疾病基因的搜索范围,提高疾病基因预测方法的准确率。