基于多源的医疗商业知识图谱构建研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:aiqiphilip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是一种将多源异构的知识融合到统一的网络结构模型中并进行知识推理和挖掘的技术。知识图谱发展至今,已不局限于通用知识领域。在专业领域,知识图谱能对模式复杂的专业知识进行结构化的整理和对框架结构的深层次分析,准确清晰地展现专业知识的内在联系,对知识的推理发散和辅助决策有着重要作用。本文研究并构建了医疗领域的商业知识图谱,主要贡献如下:(1)图谱本体层设计定义。基于本体理论知识,结合原始数据模式分析,抽取主要本体类和本体间关系,定义商业知识图谱概念层中的实体、实体属性、关系和关系属性,并使用RDFS语言进行描述;(2)实现多数据源数据的获取和处理。设计爬虫系统,从分散的信息发布平台中采集大量文本类型数据和半结构化数据,用于知识图谱构建的数据准备;(3)提出一种基于Bi-LSTM-CRF模型的命名实体识别系统。使用word2vec进行文本的向量化表示,使用Bi-LSTM模型进行特征提取,使用条件随机场模型进行序列标注。在对比实验中,本模型在对机构名实体、人名实体、产品名实体识别的F1值都达到了85%以上,其中机构名实体识别的F1值达到了91.97%;(4)提出一种基于机器学习的事件抽取与摘要生成算法。使用doc2vec模型进行文档级向量化表示,使用K-Means算法进行事件文档聚类,使用基于关键词覆盖的算法进行文档摘要抽取;(5)医疗领域商业知识图谱的构建验证。提出一种将数据从非关系型数据库中映射为三元组知识的算法,在模式层定义和知识抽取的基础上完成图谱的实际构建。基于医疗商业知识图谱,用户可以快速全面的了解企业、医院的相关信息,挖掘深层次的商业往来关系,为业务决策提供技术支持。
其他文献
复杂网络的扰度问题与网络的鲁棒性密不可分,它是网络科学领域中一个前沿性的研究热点。通过网络扰度问题的研究,可以揭示各种扰度方式下网络鲁棒性的变化规律,确定鲁棒性网
癌症已经成为威胁人类健康的主要疾病之一。化疗药物如阿霉素、紫杉醇、多西紫杉醇等具有水溶性差,体内循环时间短,毒副作用大等弊端,使其在化疗应用中有巨大的局限性。纳米
在日益复杂的社会环境下,敢于并善于处理好各种阻碍学校教育与管理的、妨害学生学习与生活的、有可能造成不良社会影响的学生突发事件,是新时代高等学校担当起立德树人、培养担当民族复兴大任时代新人重大使命的题中应有之义。在“百年未有之大变局”的时代背景下,基于高等教育办学规模不断扩大的现实情况,考虑到高等学校始终要面对学生不断增长的发展自身的需求同学校发展现实状态下有限的服务供给能力的实际矛盾,始终要面对承
随着高速列车技术的飞速发展,越来越多的人们选择乘坐高铁出行。在高速移动环境下,由于无线网络的网络特性和频繁的越区切换,导致网络性能的各种指标经常发生变化,因此移动网络运营商往往不能给用户提供满意的网络服务,从而给用户的在线工作和学习带来诸多不便。解决问题的一个重要步骤就是对高速移动环境下的网络性能进行高精度测量和评估。现有的大多数网络性能测量算法在传统有线环境下表现良好,但是在移动无线环境下往往精
鳄蜥(Shinisaurus crocodilurus)隶属于鳄蜥科(Shiniasuridae)鳄蜥属(Shinisaurus),为单型科单型属的物种,为我国一级保护动物。目前关于视觉辨别能力的研究多见于哺乳动物以
氢气是非常具有发展前景的清洁可再生能源。水的电解是一种高效且持续的制氢方法。析氢反应(HER)是电解水制氢的关键步骤。为了减少HER所需的能耗并提高能量的利用率,电催化剂
WENO格式是近年来流体力学的数值方法发展过错中出现的一类应用广泛的高精度格式,其研究主要集中在对离散化的数值方法不断更新与推进,对数值方法优良性质的改善,研究关键在
光子晶体(PC)是一种具有空间周期性的结构材料,主要通过单分散乳胶粒自组装而形成,在外界的刺激下如温度、p H和溶剂等,其体积可以发生膨胀、收缩的线型尺寸变化,可制备出一
催化剂一般具有复杂的多级孔道结构,其催化性能与孔道结构、活性成分以及操作条件等密切相关。研究催化剂孔道内的反应-扩散耦合过程,明确催化性能与复杂孔道结构之间的关联
目前燃料电池开发和应用激发起人们很大的研究热情。质子交换膜燃料电池的推广应用仍然需要克服一些不足之处。例如,质子交换膜燃料电池电极催化剂常用的贵金属Pt成本高,并且伴