论文部分内容阅读
近年来,随着计算机技术的不断发展,自然语言处理成为了计算机领域的一个热门方向。一方面,理解自然语言需要大量的知识,另一方面,自然语言处理又为知识库的构建提供了一个新的途径。本文提出了从维基百科中抽取数据构建知识库的方法,它包括实体属性与关系的抽取,属性值内的实体关系的抽取,知识库的图形化存储三个方面,具体研究内容如下:(1)从维基百科信息框抽取实体属性与关系。通过对维基百科信息框的同义模板合并与归纳,构建本体库,确定知识库的数据属性与对象属性。通过对属性名归一化,分离数据属性与对象属性,然后从信息框中抽取属性与关系的三元组。针对数量最多的人物实体,定制规则抽取一些缺省的重要属性。(2)从信息框的属性值内抽取实体关系。信息框的部分对象属性值中包含多个实体,本文从中抽取实体关系。在进行实体关系分类之前,先对实体指称做链接,得到其所指向的维基条目,再以此作为一个特征来有效提升实体关系分类的性能。(3)知识存储与知识库的测试。本文分别使用图形数据库与关系型数据库,在多个数据集上进行深度关系查找。根据两种数据库的响应时间和查找得到的结果,最终选择以图形数据库对知识库进行存储。查询实例表明本文所构建的知识库具有易用性,可行性和健壮性的特点。