论文部分内容阅读
生物医学文献是生物医药大数据的一类重要来源,其中包含了大量有价值的信息。但这些信息多以非结构化文本的形式存在,加之文献数目以千万计,因此,需要信息的高效获取和利用需要先进、高效的计算机方法。基于自然语言处理(NLP)的文本挖掘技术,可以识别海量生物医学文献中的基因、药物、疾病和变异等关键的生物医学概念(命名实体识别,NER),并可在此基础上挖掘的概念实体之间的关系(RE)。已有相关研究表明,生物医学文献具有其独特的语言特点且很多情况下依赖于复杂的领域背景知识,因此生物医学文献挖掘不能直接照搬通用NLP的方法和工具,需要进行专门的研究。生物医学文献的命名实体识别已有大量相关研究和软件工具,目前已可涵盖大部分关键的生物医学概念;但针对实体间关系的提取,则是近两年才成为研究的热点。实体间关系提取需要进行深度的语义和语法分析,流程较为复杂,当前的主流方法准确率不能令人满意。此外,生物医学文献的数量庞大,当前最全的生物医学文献库PubMed包含超过两千万篇摘要和百万篇全文,这样大的数据量,对计算能力提出了严峻的挑战。因此,如何设计与实现识别性能好、计算效率高的关系提取方法是本课题研究的主要科学问题。本文的主要研究成果包括:(1)基于依存关系树规则的复杂关系提取方法对现有的基于规则的关系提取方法进行了分析,发现已有方法只能提取出两个实体之间的简单关系如共出现、同句等,忽略了句子的复杂语法结构中包含的丰富语义,或是只对单一的关系提取起作用,缺乏广泛适用性。为解决这一问题,本文提出一种基于依存关系树规则的复杂关系提取方法,通过自定义字典和丰富的规则集来准确识别实体关系。我们的方法在CPI语料库和DDI语料库上进行了测试,取得了很好的效果,F分值达到了73%和64%。(2)基于深度学习的关系提取方法基于规则的方法的一个缺陷是其泛化性能较差,常见的思路是用基于机器学习的方法来提高泛化性能,如支持向量机(SVM)和朴素贝叶斯(NB)分类器等。近年来,深度学习得到广泛关注,一些特定的深度学习模型非常适合用于处理文本等序列类数据。因此,我们提出了一种基于依存关系和长短期记忆模型(LSTM)的关系提取方法。该方法所用的学习网络,主要包括特征层、LSTM层、最大池化层和Softmax层。其中,特征层使用实体对在依存关系树上的距离和特征关系作为输入特征;LSTM层中的每个节点都含有上下文信息;最大池化层选择出最优结果;softmax层进行归一化,得到关系结果。对本方法在DDI数据集上进行测试,对比基于核的方法和卷积神经网络的方法,F分值达到了72%,实现了一定的性能提升。(3)实体关系提取系统的设计与并行实现我们首先在天河二号上进行了文献库及文献挖掘流水线的部署;同时,针对本文提出的关系提取方法,结合天河二号的体系结构特点,开发各个层次的计算并行性,充分发挥计算性能,实现生物医学文献大数据挖掘的大规模并行挖掘分析。其中,着重研究了任务管理和负载均衡的策略与方法,并采用MPI实现并行关系提取。(4)关系提取实例应用-CNVision针对基因组拷贝数变异(CNV)与疾病之间关系复杂、解读多依赖于人工查阅文献的问题,我们在前述关系提取方法及并行实现方法的基础上进行了应用研究,我们的系统对所有涉及CNV的文献进行挖掘,提取了所有描述CNV与疾病的相关的信息,构建了CNVision数据库,同时提供了的Web界面来满足快速查询的需求。