论文部分内容阅读
本体在语义网七层模型中处于词汇的“定义层”,用于向计算机描述各种概念,实现人机交互的概念共享。在互联网时代,对于人物信息的检索需要从海量结果中筛选出针对同一目标人物的信息,利用本体可以解决不同人物描述之间的歧义问题。本文针对新闻内容出版过程中需要检索人物信息的情况,设计了一个人物新闻本体自动构建模型,通过对模型的研究和实验对人物新闻本体自动构建的重难点进行分析。本文完成的主要工作如下:1.通过对人物新闻本体自动构建中的关键环节人物实体识别的研究,结合人物新闻本体,对人名识别、人名消歧的流程进行了优化。2.根据对本体概念、本体构建的理解结合百度百科人物相关词条、人物新闻相关内容,构建了简单的人物新闻本体的基本框架,设计实现了利用抓取的内容资源实现本体自动完善的流程。本模型利用采集的百度百科信息构建人物新闻本体中的基础人物个体,利用本体中的人物个体对采集的新闻数据进行实体识别处理后构建人物新闻本体中的新闻个体,并利用新闻信息对人物个体进行完善、补充,完善人物的基本资料。3.通过对百度百科人物相关词条、人物相关新闻的内容组织结构、内容特点进行分析,设计实现了百度百科人物相关词条、人物相关新闻内容的抓取处理流程。根据人物新闻本体的自动构建完善流程的结果的初步验证和分析,总结了人物新闻本体实现完全自动构建所需要解决的关键问题。本文构建了一个简单的人物新闻本体,设计了利用百度百科和人物新闻来完成本体自动构建的系统,初步实验可以实现人物与新闻的关联,构建的人物新闻本体以人物个体的形式提供人物相关信息的知识服务,可以为人物新闻的编辑写作提供相对准确、丰富的参考资源,减少用户的信息搜集、处理工作,具有一定的应用价值。同时通过对本体自动构建的研究和实践,提出了进一步完善人物新闻本体自动构建系统的方向。