基于语义关系和链接分析的疾病知识提取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:woshiwl0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,生物医学领域的在线文献数量呈指数增长,大量的文献查询费时费力,无法高效地提供给用户所需的生物医学信息。信息检索技术和信息抽取技术在生物医学领域的应用,极大地促进了传统生物医学文献查询方式的变革。信息检索技术的应用为生物医学文献的搜索提供了便利,例如在线生物医学资源库PubMed,可以根据输入的查询语句检索到相关主题的文献返回给用户。然而,信息检索技术需要给出适当的查询词,并且查询后返回的文献依然很多。信息抽取技术在一定程度上解决了文献阅读数量巨大的问题,对特定主题进行信息提取,给用户提供文献的文本摘要。本文基于语义网络,利用信息抽取技术对生物医学文献进行知识提取,并以网络图的形式将特定主题提取得到的语义知识网络呈现出来。本文基于显著信息提取算法,从疾病相关的语义网络数据集中抽取与疾病相关的基因、药物以及基因和药物之间的关系。显著信息提取算法得到疾病相关的单层语义网络提取结果,并实现了疾病知识提取可视化系统。本文在显著信息提取算法启发下提出了一种基于链接分析的深层知识提取方法。实验应用一种新的显著信息提取算法KM,对特定疾病的基因数据集中的语义类型和关系谓词进行提取,得到与主题直接相关的基因。显著信息提取算法得到的疾病和基因的提取结果作为第一层关系,利用深度搜索得到疾病与基因之间的深层关系,并通过随机游走RRW的转移概率矩阵对深层关系网络进行过滤,最终得到疾病知识网络可视化呈现。基于链接分析的深层知识提取方法在三种疾病数据上进行了推广和应用。实验结果表明,该方法在疾病知识提取方面具有一定的有效性和普适性。生物医学语义网络知识提取,能够有效地提炼跟特定生物医学主题相关的重要信息。本文的实验方法对比Combo生物医学信息提取算法有一定提高,并在多个疾病语料集上进行了验证,能够有效地提高生物医学知识的获取效率。
其他文献
数据流自然地出现于很多监控应用中,如网络和金融服务,而这些数据流应用限制了标准关系数据库技术的适用性。许多数据流源在量上是倾向于爆发性的,而CPU处理能力不足和内存有
在现实生活中,数据发布者,如Facebook,往往会将社会网络发布出来。通过数据挖掘等技术手段,研究人员能够发掘隐藏于其中的价值规律。与此同时,社会网络所包含的用户隐私信息
近年来P2P研究升温,而资源定位是P2P网络研究中的热点问题。目前,最受研究者们关注的是基于DHT(分布式哈希表)的结构化定位模型。DHT路由算法使用分布式哈希函数进行资源定位,快
在许多实际工程和科学研究中,混沌现象已经成为普遍存在,因而对混沌的研究显得越来越重要。本文采用理论推导和数值模拟相结合的方法对混沌系统的同步方法做了研究,取得了如下成
存储网格是网格技术发展的一个重要组成部分。它将分布在网络中的计算机集合起来,充分利用各个计算机的计算资源以整合出一个强大的计算系统一样,它将网络中的存储系统进行了整
随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急剧增加,如何从规模越来越大的数据库中提取出人们感兴趣的信息以及知识,即数据挖掘技术早已成为
随着数据中心技术的不断发展,以及数据中心应用的不断产生,不同数据中心应用对网络提出了不同的性能要求。这导致了许多新的数据中心技术不断被提出。Web应用作为数据中心中
移动设备的飞速发展在给人们的生活带来便捷的同时也大大增加了个人隐私泄露的风险,移动设备的数据存储、信息通信的安全性问题受到人们越来越多的关注。P2P技术是无线网络环
随着Internet和Web技术的飞速发展,WWW已经成为人们进行信息交流不可缺少的巨大信息空间。面对如此大量的信息,人们在寻找自己所需要的信息时常常迷失方向。如何快速、准确的从
实时分布式系统的任务调度问题是一个富有挑战性的课题,也是当前的一个研究热点。由于任务调度是一个典型的NP问题,同时它又是直接影响分布式系统性能的关键因素,因此,研究实