基于基因本体的功能相似网络构建与纯化算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hawking415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因本体主要用于描述基因和基因产物的属性,其由细胞成分、生物过程和分子功能三个子本体组成。基于基因本体比较基因之间的功能相似度,对基因功能分析和预测等问题具有重要的研究意义;基于数据融合思想,利用多种类型生物数据挖掘人类疾病基因成为当前的研究热点。本文从基因本体出发,对基因功能相似度计算方法,基因功能相似度计算加速方法,人类基因功能相似网络的构建与纯化和人类疾病基因预测等计算问题,进行深入研究。具体内容主要包括以下四个方面:(1)提出基于加权继承语义的基因功能相似度计算方法为解决基因功能相似度的准确计算,本文提出一种基于加权继承语义的计算方法。首先,针对当前方法在计算术语语义信息量时,无法准确表示术语特异性的缺陷,本文充分挖掘术语在基因本体中的结构信息,重新定义术语语义信息量的计算模型;其次,针对当前方法在计算术语集合的语义信息量时,忽略术语之间的语义重叠关系,从而导致注释术语集合语义信息量的计算存在偏差的问题,本文提出加权继承语义的概念,即将术语语义分为加权继承语义和扩展语义两部分,并以此概念出发度量术语集合的语义信息量。最后,利用基因注释术语集合之间的语义重叠率计算两个基因之间的功能相似度。实验结果表明,本文提出的基因功能相似度计算方法在多组测试数据上表现突出,说明该方法能够更加准确地度量基因之间的功能相似度。(2)提出基于哈希策略的基因功能相似度计算加速方法随着对基因本体研究的逐步深入和生物实验技术的快速进步,高效地计算大规模基因之间的功能相似性成为一个难点。为解决当前基因功能相似度算法和相关工具计算效率低的问题,本文借助计算机学科“空间”换“时间”的思想,提出一种基于哈希策略的基因功能相似度计算加速方法。该算法主要分为两个步骤:首先将信息的存储方式,从基因本体结构(有向无环图)转为哈希结构;然后基于构建完成的哈希表,实现基因之间功能相似性的快速计算。借助于构建的哈希表,基因功能相似度计算方法可以从哈希表读取所需的必要信息,从而避免重复地遍历基因本体结构。时间复杂度分析表明,本文提出的计算策略可以显著提高基因功能相似度计算方法的计算效率。实验结果显示,与其它典型的方法相比,本文提出的方法在全基因组范围内计算基因功能相似度具有更大的速度优势。(3)提出基于参考网络纯化基因功能相似网络方法从网络层面系统地研究分子之间的相互关系是后基因组时代的一项重要研究内容。近年来,基因功能相似网络与其它传统的生物分子网络一样受到越来越多的关注。然而,基因功能相似网络是一个全连接网络,该网络中存在“噪声”。因此,本文提出基于参考网络,对基因功能相似网络进行纯化的方法。该方法主要分为三个步骤:首先,针对单一基因功能相似度计算方法的结果存在偏差的缺点,本文利用多种计算方法的结果构建多数据集成的基因功能相似网络;然后,利用多种人类蛋白质互作网络,充分挖掘基因在网络中的拓扑结构,度量基因之间的拓扑相似性,从而构建高质量的参考基因关联网络;最后,基于参考基因关联网络,对多数据集成的基因功能相似网络进行纯化。实验结果表明:纯化后的基因功能相似网络在拓扑结构和节点度分布等方面,与其它典型的分子互作网络保持一致,说明该网络符合生物分子网络的特征;在蛋白质复合体预测实验上的优秀表现,进一步说明该网络的合理性和有效性。(4)提出基于基因相似网络的疾病基因挖掘方法查找人类疾病基因有助于对疾病的预防和治疗。现有方法通常利用传统分子互作网络挖掘疾病基因并取得了一些成果。然而,分子互作网络存在假阳性和低覆盖率的缺点,因此实验结果有待于进一步提高。本文基于数据融合思想,利用基因及其产物的多种生物数据,构建多数据集成的基因相似网络,扩大人类疾病基因的挖掘范围。具体来讲,首先利用基因本体注释信息,基因表达蛋白质的序列信息和结构域信息,分别构建基因相似网络;其次,采用相似网络融合方法,将上述基因相似网络融合,从而得到多数据集成的基因相似网络;然后,利用疾病表型相似网络,疾病-基因关联网络和多数据集成的基因相似网络,构建疾病-基因异构双层网络模型;最后利用带重启的随机游走算法挖掘人类疾病基因。实验结果表明:与其它同类方法相比,本文提出的方法可以扩大疾病基因的搜索范围,提高疾病基因预测方法的准确率。
其他文献
营销指标全部来源于营销日常工作,是对营销基础管理的高度总结和提炼,所以营销同业对标水平和营销基础管理水平密切相关,营销同业对标水平深刻体现了本单位的营销基础管理水
热电转换技术是一种清洁型能源转换技术,它利用半导体材料的Seebeck效应和Peltier效应来实现电能与热能之间直接且可逆地转换,具有广泛的应用前景。由于AgBiSe2为少见的n型本
本文聚焦讨论了建国初期上海总工会干部学校创建与初办培训教育的历史。1951年,在"加强工会干部教育"的方针指导下,伴随着工会学校的创建,上海市工会干部培训走向正规化、系
人类交际由语言交际和非语言交际组织,但是,在我国外语教学中非语言交语言交际没有得到足够的认识和重视,本文论述了什么是非语言交际及其在外语教学中的必要性和传授方法。
臭氧高级氧化技术在水处理中,特别是在深度净化水、没有二次污染水中有着其他方法不可比拟的优势。从臭氧产生的机理出发,阐述了获得高浓度臭氧的技术关键,并提出了可获得高浓度
不少农村民办幼儿园师资来源较差、教师培训机会少、保教质量偏低、人员流动过大、激励措施偏少、后继人才缺乏,导致其教师素质偏低的现状严重影响和制约着民办园的生存与发
随着大中城市经济建设的快速发展、人民生活水平的不断提高,城市中的汽车数量连年累增,交通堵塞成了各个城市的首要难题。随之,打车软件应运而生,其在一定程度上缓解了人们出
百合(Lilium spp.)在世界花卉产业中占有重要地位。多倍体育种是培育性状优良的新品种和恢复远缘杂交F1代育性的有效途径,其中无性多倍化和有性多倍化是多倍体育种的主要方式
阐述了点火线圈老化测试的必要性,介绍了基于PLC的点火线圈老化测试系统组成。硬件采用西门子S7-200系列PLC为控制核心,结合现有老化测试设备的结构及当前人工老化测试的流程
随着互联网、云计算和分布式计算技术的不断发展,人们在分布式、云计算和信息中心网络(ICN)环境中进行数据的共享和开展的各种应用需求越来越多,利用这些技术可以轻松获得有