面向海量生物医学文献的实体关系提取方法及其应用研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:fjsgxxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献是生物医药大数据的一类重要来源,其中包含了大量有价值的信息。但这些信息多以非结构化文本的形式存在,加之文献数目以千万计,因此,需要信息的高效获取和利用需要先进、高效的计算机方法。基于自然语言处理(NLP)的文本挖掘技术,可以识别海量生物医学文献中的基因、药物、疾病和变异等关键的生物医学概念(命名实体识别,NER),并可在此基础上挖掘的概念实体之间的关系(RE)。已有相关研究表明,生物医学文献具有其独特的语言特点且很多情况下依赖于复杂的领域背景知识,因此生物医学文献挖掘不能直接照搬通用NLP的方法和工具,需要进行专门的研究。生物医学文献的命名实体识别已有大量相关研究和软件工具,目前已可涵盖大部分关键的生物医学概念;但针对实体间关系的提取,则是近两年才成为研究的热点。实体间关系提取需要进行深度的语义和语法分析,流程较为复杂,当前的主流方法准确率不能令人满意。此外,生物医学文献的数量庞大,当前最全的生物医学文献库PubMed包含超过两千万篇摘要和百万篇全文,这样大的数据量,对计算能力提出了严峻的挑战。因此,如何设计与实现识别性能好、计算效率高的关系提取方法是本课题研究的主要科学问题。本文的主要研究成果包括:(1)基于依存关系树规则的复杂关系提取方法对现有的基于规则的关系提取方法进行了分析,发现已有方法只能提取出两个实体之间的简单关系如共出现、同句等,忽略了句子的复杂语法结构中包含的丰富语义,或是只对单一的关系提取起作用,缺乏广泛适用性。为解决这一问题,本文提出一种基于依存关系树规则的复杂关系提取方法,通过自定义字典和丰富的规则集来准确识别实体关系。我们的方法在CPI语料库和DDI语料库上进行了测试,取得了很好的效果,F分值达到了73%和64%。(2)基于深度学习的关系提取方法基于规则的方法的一个缺陷是其泛化性能较差,常见的思路是用基于机器学习的方法来提高泛化性能,如支持向量机(SVM)和朴素贝叶斯(NB)分类器等。近年来,深度学习得到广泛关注,一些特定的深度学习模型非常适合用于处理文本等序列类数据。因此,我们提出了一种基于依存关系和长短期记忆模型(LSTM)的关系提取方法。该方法所用的学习网络,主要包括特征层、LSTM层、最大池化层和Softmax层。其中,特征层使用实体对在依存关系树上的距离和特征关系作为输入特征;LSTM层中的每个节点都含有上下文信息;最大池化层选择出最优结果;softmax层进行归一化,得到关系结果。对本方法在DDI数据集上进行测试,对比基于核的方法和卷积神经网络的方法,F分值达到了72%,实现了一定的性能提升。(3)实体关系提取系统的设计与并行实现我们首先在天河二号上进行了文献库及文献挖掘流水线的部署;同时,针对本文提出的关系提取方法,结合天河二号的体系结构特点,开发各个层次的计算并行性,充分发挥计算性能,实现生物医学文献大数据挖掘的大规模并行挖掘分析。其中,着重研究了任务管理和负载均衡的策略与方法,并采用MPI实现并行关系提取。(4)关系提取实例应用-CNVision针对基因组拷贝数变异(CNV)与疾病之间关系复杂、解读多依赖于人工查阅文献的问题,我们在前述关系提取方法及并行实现方法的基础上进行了应用研究,我们的系统对所有涉及CNV的文献进行挖掘,提取了所有描述CNV与疾病的相关的信息,构建了CNVision数据库,同时提供了的Web界面来满足快速查询的需求。
其他文献
随着新课程改革的发展,高中英语教学的培养目标发生了变化。教学越来越重视培养学生的语言应用能力。写作作为语言的输出部分,是语言应用能力的重要表现。因此,英语写作教学
目的:通过比较急性ST段抬高型心肌梗死(ST-segment elevation myocardial infarction,STEMI)患者急诊经皮冠状动脉介入治疗(percutaneous coronary intervention,PCI)术前不
背景及目的食管癌是全球八大常见恶性肿瘤之一,在我国,其发病率位于恶性肿瘤的第五位。国际癌症研究中心(International Agency for Research on Cancer,IARC)2012年及2018年
近年来,以CH3NH3PbI3(MAPbI3)为代表的有机-无机杂化钙钛矿材料由于具有较高的吸光系数、合适的光学带隙和优异的载流子传输特性而受到广泛关注。但传统AMX3结构中A位有机阳离
组织病理图像蕴含生物体丰富的病理信息,对于医学研究的发展具有不可估量的价值,其中,组织病理图像分类引起了学术界的极大关注。近年来,诸多成果已经证明了判别性字典学习在图像分类任务中的重要性。本文主要关注于如何设计字典学习模型,学习得到判别性字典,最终实现更好的组织病理图像分类性能。本文的主要工作如下:(1)针对组织病理图像分类中样本特征之间具有高度相关性的问题,本文提出一种基于低秩约束的判别性字典学
目前,内分泌干扰物作为一类新兴的污染物,对各类水体产生了巨大的威胁,双酚A(BPA)属于内分泌干扰物中的一种,由于其浓度比较低,利用传统常规的水处理工艺难以除去,因此可以利用高级氧化技术(AOP)降解。过一硫酸盐(PMS)物态为固态,无污染且方便投加。PMS活化后可以产生大量硫酸自由基(SO_4?-),利用其强氧化性降解水中污染物。利用尖晶石活化PMS产生SO_4?-降解水中污染物的手段具有很大优
此篇论文通过分析由朱建华主编、外语教学与研究出版社出版的教材《新编大学德语》第一册和第二册中的相关文字段落、插图、习题和词汇来研究其中存在的刻板印象和偏见。另外
目的:通过研究微卫星不稳定性、PD-1和PD-L1在胰腺神经内分泌肿瘤(pancreancreatic neuroendocrine neoplasm,p NEN)中的表达情况,来探索它们与p NEN患者的临床病理特征的关
精神分裂症(Schizophrenia,SZ)是一种严重的精神性疾病,发病率占世界人口的1%,该病经常伴随终生,不仅让患者饱受折磨,还给患者的家庭以及生活所处的社会带来了沉重的负担。神经调节素1(NRG1)及其受体ErbB4基因是两个公认的精神分裂症易感基因,已有研究不仅表明NRG1/ErbB4信号在小鼠是小清蛋白(Parvalbumin,PV)阳性中间神经元突触传递的调控因子,也指出在该信号异常
后机身结构复杂,外形为双曲收缩构型,布置有客舱、货舱、设备舱、厨房、舷窗、客舱门、货舱门等,其结构特点使得后机身的设计和装配难度大大提高。装配仿真是通过计算机软件,