基于知识蒸馏的农业知识图谱构建研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ffcsyangchh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粮食安全问题是关系国计民生的根本性问题,病虫害、自然灾害等对我国粮食产量有着巨大的影响。在应对这些灾害时,网上与之相关的信息虽然繁多,但是存在内容表达差异以及知识零散等问题,数据存储结构以及表示方式等也各不相同,处于一种相对混乱的状态,人们难以高效地利用好这些信息。近十年里,知识图谱技术发展迅速,其能有效地描述各类事物,以及提高搜索查询的速度与质量,因此利用知识图谱相关技术来整合农业领域相关的数据,能帮助我们更快更好地应对作物生长过程中可能遇到的各类问题。本文构建了农业知识图谱系统,实现了实体识别、关系抽取以及知识图谱中实体和关系的查询等功能。在构建知识图谱的过程中,首先根据《中国农业病虫害》、百度百科以及各类农业相关的数据,构建了农业领域本体。然后采用基于知识蒸馏的Bi LSTM-CRF命名实体识别模型以及PCNN关系抽取模型等方法,对结构化和非结构化的数据进行知识抽取,并将抽取出来的知识存储在neo4j图数据库中,共计13983个实体和26498个关系。在构建知识图谱过程中,往往需要挖掘非结构化的数据,而农业领域现存公开的带标签的数据集稀少,因此针对带标签的数据少的情况,本文提出了一个基于知识蒸馏的迁移学习模型,首先训练一个领域鉴别器,其能够对源域和目标域的数据有一个较为准确的分类,然后通过领域鉴别器选出少量目标域的数据,之后仅使用该部分数据,运用知识蒸馏相关的技术,能提升目标域模型的效果。通过实验结果发现,对于一个领域的数据,我们只需标注不到十分之一的数据,相比只用这部分数据进行训练,通过知识蒸馏后能提高模型的效果,因为领域鉴别器里能选出源域对目标域有效的那部分数据。通过这种方式,在大幅缩减数据标注所耗费的人力物力的情况下,模型能达到一个不错的效果。
其他文献
肺癌是具有高死亡率的恶性肿瘤之一,虽然目前人们对肺癌发生机制的了解和抗癌药物的开发有新的进展,但临床治疗效果仍不能令人满意。因此,有效抗肺癌药物的发现已经成为研究者所关心的热点。本课题选用的化合物RY-1-11是一种新型喜树碱衍生物,并且实验室前期研究结果显示RY-1-11通过影响Wnt/β-catenin信号通路显著抑制肺癌细胞的增殖和迁移,具有很好的抗肿瘤活性。同时,前期研究表明RY-1-11
学位
目的:代谢相关脂肪性肝病(Metabolic associated fatty liver disease,MAFLD)也称为非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD),是全球发病率最高的慢性肝病,全世界大约有四分之一的人深受该病困扰。MAFLD的预防和治疗主要依赖于饮食控制和运动干预,目前亟需开发新的和有效的治疗药物。AWRK6是基于东北林
学位
学位
淀粉样蛋白沉积疾病是由特定多肽或蛋白质聚集形成高度稳定的、具有细胞毒性的淀粉样蛋白纤维化沉淀所引起的。淀粉样肽β(Amyloidβ,Aβ)被认为是引起阿尔茨海默病(Alzheimer’s disease,AD)的致病蛋白。人胱抑素C(Human cystatin C,HCC)是一种广泛存在于人体的体液和组织液中的半胱氨酸蛋白酶抑制剂,可以抑制细胞外半胱氨酸蛋白酶活性。HCC可与可溶性的Aβ结合,研
学位
随着信息化技术的发展,在线课堂教育开始在信息化应用中崭露头角,但是在线教学中,学生课堂状态不佳和大规模翘课的现象已经对在线教学的发展产生阻碍,因此人们开始更加关注如何改善这种学生翘课的现象。但是,在线教学的相关任务的研究中,公开可使用的数据集和在公开数据集上进行的工作较少,数据集的问题阻碍着在线教育相关任务研究的发展。为了解决上述问题,我们构建了一个新的数据集,并提出了一种新的学生完课预测方法,通
学位
数字化浪潮推动互联网行业飞速发展,开发人员数量的增长速度远低于软件需求的增长速度。因此,研究人员和工业界将目光聚焦智能化编程,希望通过低代码的智能化编程极大地提高软件开发速度、效率和质量。现有的代码生成研究有两个重要的方法:模型驱动的代码生成方法和深度神经网络的代码生成方法。然而,前者需要复杂细致的建模才能得到功能上复杂的代码;后者难以生成结构性复杂的代码,这些问题限制着代码生成的发展。针对上述问
学位
随着开源的软件越来越多,在项目开发过程,为了提高开发效率以及程序性能,不可避免的需要引用开源的库和开源的代码块。对于只能获取二进制的项目,通过二进制代码相似性分析来判断项目中是否使用了库中的代码,前人已经提出了一些解决方案,但这些方案要么只能针对单架构的二进制代码进行相似性分析,要么通过特征进行跨平台的函数进行分析,并不能获得不同架构函数真正的语义表示。本文提出了一个基于对比学习的方案来解决该问题
学位
随着环境污染越来越严重,有机化合物成为环境污染的主要危害,尤其是随着工业污水、生活废水、运输泄漏等方式排放到水体中的有机化合物对水生生物造成了极大的负面影响。然而有机化合物急性毒性的研究领域,传统生物实验方法时间长、费用高、方法复杂,计算机辅助构建的二元分类模型虽可对毒性进行划分,但无法准确对毒性进一步划分。多元分类模型不仅可以快速准确地对有机化合物水生生物急性毒性进行,还可以进一步的按照各个国家
学位
图像超分辨率是计算机底层视觉和图像处理领域的一项基础任务。因为低分辨率图像和高分辨率图像构成一个一对多的映射,所以图像超分辨率任务本质上是一个不适定问题。近年来,借助深度卷积神经网络的强大表示能力,基于深度学习的图像超分辨率方法取得了巨大的突破,这些深度学习的方法主要通过不断加深或加宽网络以获得更好的性能,其参数量不可避免地成倍增加。然而,在实际应用中,设备的内存和算力是有限的,难以支持大型网络的
学位
实时流数据是大数据时代的一种重要的数据组织形式,人们希望自适应流计算系统能够以低延迟和高吞吐量及时处理动态变化的实时数据流。流应用程序的有效运行时重配置被认为是保证流处理系统性能的关键之一,现有的许多工作都试图通过在某一种重配置机制的支持下,通过从某一个角度或对某一个层次进行的重配置来构建一个自适应的弹性流计算系统,如调整算子的并行度,调整任务部署以及调整流分区。本文认为,这些问题是紧密耦合的,因
学位