基于本体的文本挖掘结果的存储与表现

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:ynsyxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的随着基因组学、蛋白组学、代谢组学的研究发展,生物医学文献数量迅猛增长,如何在如此数量庞杂的文献中准确快捷得找到我们需要的信息?文本挖掘的出现为我们提供了这种可能。如何对文本挖掘得到的语义信息(如规则等)进行合理的表示和有效的组织,并为以后使用(如推理等)打下基础,成为文本挖掘后进一步关切的问题。随着对本体认识的深入,本体在知识概念表示和知识组织方面的优势日益突显出来。用本体表示领域知识,是对丰富多彩的领域现象的抽象。因此,面对文本挖掘后得到的模式或知识如何有效的表达这一问题,利用本体方法建立领域的概念体系无疑是一种新的尝试。本文的主要目的便是尝试将文本挖掘得到的语义信息用本体这一概念模型进行存储和表达。材料与方法本研究以《医学主题词树状结构表》中A大类-解剖类(anatomy category)、C大类-疾病类(diseases category)、G大类-生物科学类(biological sciences category)主题词为研究对象,以MEDLINE数据库中A大类,C大类,G大类主题词相关文献为样本,用高频主题词共词聚类分析方法提取文献中主题词之间的二维关联规则;以肿瘤领域为例,选取涉及肿瘤领域的相关规则,返回MEDLINE数据库,通过检索,得出规则所表达的具体的概念间的关系;将概念间的关系用本体这一概念模型进行组织和表达,构建肿瘤主题领域的概念体系结构。结果本研究对解剖类、疾病类、生物科学类相关的语义关系进行提取后,共生成解剖类的规则202条,生物科学类的规则102条,疾病类的规则42条。其中涉及肿瘤领域的相关规则包括17条,基于这些语义信息构建了肿瘤领域的本体体系结构。截止目前,本体包括:Classes 131个,Object Properties 13个。结论本文对基于文本挖掘的生物医学本体的构建进行了初步的尝试,将文本挖掘的结果用本体这一概念模型进行了组织和表达。由此证实应用本体存储和表现文本挖掘的结果是切实可行的。挖掘深度越大,领域本体所表达的知识便会越丰富。
其他文献
研究背景人星状病毒(Human Astrovirus, HAstV)首次于1975年由Appleton和Higgins用电镜检测胃肠炎患儿粪便标本时发现。星状病毒属单独的星状病毒科,星状病毒属,无衣壳单股正