论文部分内容阅读
近年来,生物医学领域的在线文献数量呈指数增长,大量的文献查询费时费力,无法高效地提供给用户所需的生物医学信息。信息检索技术和信息抽取技术在生物医学领域的应用,极大地促进了传统生物医学文献查询方式的变革。信息检索技术的应用为生物医学文献的搜索提供了便利,例如在线生物医学资源库PubMed,可以根据输入的查询语句检索到相关主题的文献返回给用户。然而,信息检索技术需要给出适当的查询词,并且查询后返回的文献依然很多。信息抽取技术在一定程度上解决了文献阅读数量巨大的问题,对特定主题进行信息提取,给用户提供文献的文本摘要。本文基于语义网络,利用信息抽取技术对生物医学文献进行知识提取,并以网络图的形式将特定主题提取得到的语义知识网络呈现出来。本文基于显著信息提取算法,从疾病相关的语义网络数据集中抽取与疾病相关的基因、药物以及基因和药物之间的关系。显著信息提取算法得到疾病相关的单层语义网络提取结果,并实现了疾病知识提取可视化系统。本文在显著信息提取算法启发下提出了一种基于链接分析的深层知识提取方法。实验应用一种新的显著信息提取算法KM,对特定疾病的基因数据集中的语义类型和关系谓词进行提取,得到与主题直接相关的基因。显著信息提取算法得到的疾病和基因的提取结果作为第一层关系,利用深度搜索得到疾病与基因之间的深层关系,并通过随机游走RRW的转移概率矩阵对深层关系网络进行过滤,最终得到疾病知识网络可视化呈现。基于链接分析的深层知识提取方法在三种疾病数据上进行了推广和应用。实验结果表明,该方法在疾病知识提取方面具有一定的有效性和普适性。生物医学语义网络知识提取,能够有效地提炼跟特定生物医学主题相关的重要信息。本文的实验方法对比Combo生物医学信息提取算法有一定提高,并在多个疾病语料集上进行了验证,能够有效地提高生物医学知识的获取效率。