论文部分内容阅读
【摘要】 信息检索技术查全率和查准率不高依然是一个值得关注的问题,在知识库的建立和知识表示上的改进有助于提高信息检索模型的效率。本文结合知网将概念格这种知识表示方式应用在信息检索模型中来,实验证明对提高信息检索模型的效率具有一定的作用。
【关键词】 概念格;信息检索;知识表示;查全率;查准率
【中图分類号】:G203【文献标识码】:B 【文章编号】:1009-9646(2008)04-0081-02
信息检索模型查全率和查准率不高依然是一个值得关注的问题,在知识库的建立和知识表示上的改进有助于提高信息检索模型的效率。本文结合知网将概念格这种知识表示方式应用在信息检索模型中来,实验证明对提高信息检索模型的效率具有一定的作用。
1 背景
概念格[1,2,3,4](Conceptual lattice)又称为galois格,由RWille 提出,是根据形式背景所产生的概念之间的偏序关系建立起来的,并能通过Hasse图以图形的形式化描述出来,体现概念之间的泛化和特化关系的一种特殊的数据结构。概念格的建格算法主要分为批处理方式和渐进方式两种,都是通过概念之间的前驱和后继关系来逐层建立格关系。其中各个概念节点都相应地包含有概念的内涵和外延,两种建格算法都通过相应概念内涵和外延来进一步建立Hasse图。
知网[5]是以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概念所具有的特征之间的关系为基本内容的常识知识库。知网主要包含主要特征文件、次要特征文件、以及事件关系和角色转换等。对于知网而言,抽取主要的义原作为概念的最小单位,通过一定的方式描绘出汉语或英语的词汇,并表示出概念与概念之间的相互关系,概念特征之间的相互关系。本文就是在知网语义知识库的基础上采用概念格这种知识表示方式并应用在信息检索模型中。
2 基于概念格构思的信息检索模型
2.1 概念格的知识表示方法。对于给定的数据信息表K=(G,M,I) [6,7],在形式概念分析中称为形式背景(formal context),如表1所示。其中G是对象集合,M为属性集合,I是G和M间的二元关系。对于一个对象g∈G,属性m∈M,那么gIm就表示对象g具有属性m。形式背景的对象集A∈P(G),属性集B∈P(M)之间按如下关系连接:f(A)={m∈M| g∈A,gIm };g(B)={g∈G| m∈B,gIm };则称从形式背景中得到的每一个满足A=g(B),B=f(A)的二元组(A,B)为一个形式概念。其中A是对象密集P(G)的元素,称为概念(A,B)的外延,B是属性密集P(M)的元素,称为概念(A,B)的内涵。若概念C1=(A1,B1)和C2=(A2,B2),满足A1A2,则称(A1,B1)为子概念(或亚概念),(A2,B2)为父概念(或超概念),记为:(A1,B1) (A2,B2)。若不存在C3=(A3,B3),满足(A1,B1)<(A3,B3)<(A2,B2),则称(A1,B1)为直接子概念,(A2,B2)为直接父概念。这种由形式背景中所有形式概念的超概念——亚概念的偏序关系(也称泛化——特化关系)所诱导出的格称为概念格,记为L(K)。概念格可以用图形化形式表示为有标号的线图,图的节点表示一个概念,节点间的连线表示节点间存在泛化——特化关系.这种线图也称为Hasse图,它是概念格的可视化表示。图1所示的是表1的形式背景对应的概念格的Hasse图。
2.2 相似度计算。两个概念格[8]的相似度计算可通过如下的方式进行,假如存在两个概念格G1、G2,令V1和V2分别为G1和G2中的结点,Arc1为与V1相关联的弧,Arc2为与V2相关联的弧。如果Arc1与Arc2的关系类型相同,若Arc1的弧头是G1的关键词结点,那么Arc2的弧头是G2的关键词结点,弧Arc1与弧Arc2类型相同,若Arc1的弧尾是G1的关键词结点,那么Arc2的弧尾是G2的关键词结点,称弧Arc1与弧Arc2类型相同。
若G1与G2均为概念格,则计算它们的相似度分为以下三步:
① 计算关键词结点的相似度:令G1的关键词结点所代表的关键词为keyhead1,G2的关键词结点所代表的关键词为keyhead2,则两个关键词相似度sim(keyhead1,keyhead2)由以下公式完成:sim(keyhead1,keyhead2)=β/(β+dis(keyhead1,keyhead2),其中β为参数(β>1),dis(keyhead1,keyhead2)dis(semhead1,semhead2)为关键词keyhead1与关键词keyhead2之间的语义距离。
② 计算非关键词结点的相似度:
simsecond=1n∑ni=1maxdim(nk1,nk2),sim(nk1,nk2)=β/(β+dis(nk1,nk2))n为G2中弧的条数。
③计算概念格的相似度:
sim(G1,G2)=sim(keyhead1,keyhead2)×β1+sim(keyhead1,keyhead2)×β2×simsecond其中β1,β2为两个参数,β1+β2=1,β1>0.5
2.3 实验。根据信息检索中查全率和查准率的定义我们可以从百度和google中以相同的查询式信息检索进行检索,将检索到的结果表示成概念格进行进行相似度计算和相关度判断得到查全率和查准率均高于其它知识表示方式下的信息检索技术。
3 结语
本文提出的将概念格用在信息检索技术中是概念格使用的一次有意义的尝试。用概念格的方法描述了关键词之间的语义信息及其关系,将它们用在检索技术中,对信息检索技术的发展有很大的促进作用。在搜索引擎下的实验表明,采用概念格表示知识和概念能够提高检索的效率。
参考文献
[1] 朱红蕾等.概念格中知识发现的研究.软件时空.2006年2期.247-249
[2] 沈夏炯等.概念格构造算法的改进.计算机工程与应用. 2004年24期.100-103
[3] 梁吉业等. 基于概念格的规则产生集挖掘算法.计算机研究与发展.2004年8期
[4] 李云等. 基于属性的概念格渐进式生成算法.小型微型计算机系统.2004年8期
[5] 董振东等. 知网.http://www.keenage.com
[6] Bakker,R., Knowledge Graphs:Representation and Structruing of Scientific Knowledge, Ph.D. Thesis, University of Twente, 1987
[7] Bartsch, R., Frame Representations and Discourse Representations, Inst. For Language , Logic and Information ,Univ. of Amsterdam,1987
[8] Mizzaro S. (1998) “How many relevancies in information retrieval? ”.Interacting With Computers vol.10 no.3 pp.305-322
收稿日期:2008-3-27
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
【关键词】 概念格;信息检索;知识表示;查全率;查准率
【中图分類号】:G203【文献标识码】:B 【文章编号】:1009-9646(2008)04-0081-02
信息检索模型查全率和查准率不高依然是一个值得关注的问题,在知识库的建立和知识表示上的改进有助于提高信息检索模型的效率。本文结合知网将概念格这种知识表示方式应用在信息检索模型中来,实验证明对提高信息检索模型的效率具有一定的作用。
1 背景
概念格[1,2,3,4](Conceptual lattice)又称为galois格,由RWille 提出,是根据形式背景所产生的概念之间的偏序关系建立起来的,并能通过Hasse图以图形的形式化描述出来,体现概念之间的泛化和特化关系的一种特殊的数据结构。概念格的建格算法主要分为批处理方式和渐进方式两种,都是通过概念之间的前驱和后继关系来逐层建立格关系。其中各个概念节点都相应地包含有概念的内涵和外延,两种建格算法都通过相应概念内涵和外延来进一步建立Hasse图。
知网[5]是以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概念所具有的特征之间的关系为基本内容的常识知识库。知网主要包含主要特征文件、次要特征文件、以及事件关系和角色转换等。对于知网而言,抽取主要的义原作为概念的最小单位,通过一定的方式描绘出汉语或英语的词汇,并表示出概念与概念之间的相互关系,概念特征之间的相互关系。本文就是在知网语义知识库的基础上采用概念格这种知识表示方式并应用在信息检索模型中。
2 基于概念格构思的信息检索模型
2.1 概念格的知识表示方法。对于给定的数据信息表K=(G,M,I) [6,7],在形式概念分析中称为形式背景(formal context),如表1所示。其中G是对象集合,M为属性集合,I是G和M间的二元关系。对于一个对象g∈G,属性m∈M,那么gIm就表示对象g具有属性m。形式背景的对象集A∈P(G),属性集B∈P(M)之间按如下关系连接:f(A)={m∈M| g∈A,gIm };g(B)={g∈G| m∈B,gIm };则称从形式背景中得到的每一个满足A=g(B),B=f(A)的二元组(A,B)为一个形式概念。其中A是对象密集P(G)的元素,称为概念(A,B)的外延,B是属性密集P(M)的元素,称为概念(A,B)的内涵。若概念C1=(A1,B1)和C2=(A2,B2),满足A1A2,则称(A1,B1)为子概念(或亚概念),(A2,B2)为父概念(或超概念),记为:(A1,B1) (A2,B2)。若不存在C3=(A3,B3),满足(A1,B1)<(A3,B3)<(A2,B2),则称(A1,B1)为直接子概念,(A2,B2)为直接父概念。这种由形式背景中所有形式概念的超概念——亚概念的偏序关系(也称泛化——特化关系)所诱导出的格称为概念格,记为L(K)。概念格可以用图形化形式表示为有标号的线图,图的节点表示一个概念,节点间的连线表示节点间存在泛化——特化关系.这种线图也称为Hasse图,它是概念格的可视化表示。图1所示的是表1的形式背景对应的概念格的Hasse图。
2.2 相似度计算。两个概念格[8]的相似度计算可通过如下的方式进行,假如存在两个概念格G1、G2,令V1和V2分别为G1和G2中的结点,Arc1为与V1相关联的弧,Arc2为与V2相关联的弧。如果Arc1与Arc2的关系类型相同,若Arc1的弧头是G1的关键词结点,那么Arc2的弧头是G2的关键词结点,弧Arc1与弧Arc2类型相同,若Arc1的弧尾是G1的关键词结点,那么Arc2的弧尾是G2的关键词结点,称弧Arc1与弧Arc2类型相同。
若G1与G2均为概念格,则计算它们的相似度分为以下三步:
① 计算关键词结点的相似度:令G1的关键词结点所代表的关键词为keyhead1,G2的关键词结点所代表的关键词为keyhead2,则两个关键词相似度sim(keyhead1,keyhead2)由以下公式完成:sim(keyhead1,keyhead2)=β/(β+dis(keyhead1,keyhead2),其中β为参数(β>1),dis(keyhead1,keyhead2)dis(semhead1,semhead2)为关键词keyhead1与关键词keyhead2之间的语义距离。
② 计算非关键词结点的相似度:
simsecond=1n∑ni=1maxdim(nk1,nk2),sim(nk1,nk2)=β/(β+dis(nk1,nk2))n为G2中弧的条数。
③计算概念格的相似度:
sim(G1,G2)=sim(keyhead1,keyhead2)×β1+sim(keyhead1,keyhead2)×β2×simsecond其中β1,β2为两个参数,β1+β2=1,β1>0.5
2.3 实验。根据信息检索中查全率和查准率的定义我们可以从百度和google中以相同的查询式信息检索进行检索,将检索到的结果表示成概念格进行进行相似度计算和相关度判断得到查全率和查准率均高于其它知识表示方式下的信息检索技术。
3 结语
本文提出的将概念格用在信息检索技术中是概念格使用的一次有意义的尝试。用概念格的方法描述了关键词之间的语义信息及其关系,将它们用在检索技术中,对信息检索技术的发展有很大的促进作用。在搜索引擎下的实验表明,采用概念格表示知识和概念能够提高检索的效率。
参考文献
[1] 朱红蕾等.概念格中知识发现的研究.软件时空.2006年2期.247-249
[2] 沈夏炯等.概念格构造算法的改进.计算机工程与应用. 2004年24期.100-103
[3] 梁吉业等. 基于概念格的规则产生集挖掘算法.计算机研究与发展.2004年8期
[4] 李云等. 基于属性的概念格渐进式生成算法.小型微型计算机系统.2004年8期
[5] 董振东等. 知网.http://www.keenage.com
[6] Bakker,R., Knowledge Graphs:Representation and Structruing of Scientific Knowledge, Ph.D. Thesis, University of Twente, 1987
[7] Bartsch, R., Frame Representations and Discourse Representations, Inst. For Language , Logic and Information ,Univ. of Amsterdam,1987
[8] Mizzaro S. (1998) “How many relevancies in information retrieval? ”.Interacting With Computers vol.10 no.3 pp.305-322
收稿日期:2008-3-27
注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”