概念格在信息检索技术中的应用

来源 :高校教育研究 | 被引量 : 0次 | 上传用户:suals
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】 信息检索技术查全率和查准率不高依然是一个值得关注的问题,在知识库的建立和知识表示上的改进有助于提高信息检索模型的效率。本文结合知网将概念格这种知识表示方式应用在信息检索模型中来,实验证明对提高信息检索模型的效率具有一定的作用。
  【关键词】 概念格;信息检索;知识表示;查全率;查准率
  【中图分類号】:G203【文献标识码】:B 【文章编号】:1009-9646(2008)04-0081-02
  
  信息检索模型查全率和查准率不高依然是一个值得关注的问题,在知识库的建立和知识表示上的改进有助于提高信息检索模型的效率。本文结合知网将概念格这种知识表示方式应用在信息检索模型中来,实验证明对提高信息检索模型的效率具有一定的作用。
  
  1 背景
  
  概念格[1,2,3,4](Conceptual lattice)又称为galois格,由RWille 提出,是根据形式背景所产生的概念之间的偏序关系建立起来的,并能通过Hasse图以图形的形式化描述出来,体现概念之间的泛化和特化关系的一种特殊的数据结构。概念格的建格算法主要分为批处理方式和渐进方式两种,都是通过概念之间的前驱和后继关系来逐层建立格关系。其中各个概念节点都相应地包含有概念的内涵和外延,两种建格算法都通过相应概念内涵和外延来进一步建立Hasse图。
  知网[5]是以英汉双语所代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概念所具有的特征之间的关系为基本内容的常识知识库。知网主要包含主要特征文件、次要特征文件、以及事件关系和角色转换等。对于知网而言,抽取主要的义原作为概念的最小单位,通过一定的方式描绘出汉语或英语的词汇,并表示出概念与概念之间的相互关系,概念特征之间的相互关系。本文就是在知网语义知识库的基础上采用概念格这种知识表示方式并应用在信息检索模型中。
  
  2 基于概念格构思的信息检索模型
  
  2.1 概念格的知识表示方法。对于给定的数据信息表K=(G,M,I) [6,7],在形式概念分析中称为形式背景(formal context),如表1所示。其中G是对象集合,M为属性集合,I是G和M间的二元关系。对于一个对象g∈G,属性m∈M,那么gIm就表示对象g具有属性m。形式背景的对象集A∈P(G),属性集B∈P(M)之间按如下关系连接:f(A)={m∈M| g∈A,gIm };g(B)={g∈G| m∈B,gIm };则称从形式背景中得到的每一个满足A=g(B),B=f(A)的二元组(A,B)为一个形式概念。其中A是对象密集P(G)的元素,称为概念(A,B)的外延,B是属性密集P(M)的元素,称为概念(A,B)的内涵。若概念C1=(A1,B1)和C2=(A2,B2),满足A1A2,则称(A1,B1)为子概念(或亚概念),(A2,B2)为父概念(或超概念),记为:(A1,B1) (A2,B2)。若不存在C3=(A3,B3),满足(A1,B1)<(A3,B3)<(A2,B2),则称(A1,B1)为直接子概念,(A2,B2)为直接父概念。这种由形式背景中所有形式概念的超概念——亚概念的偏序关系(也称泛化——特化关系)所诱导出的格称为概念格,记为L(K)。概念格可以用图形化形式表示为有标号的线图,图的节点表示一个概念,节点间的连线表示节点间存在泛化——特化关系.这种线图也称为Hasse图,它是概念格的可视化表示。图1所示的是表1的形式背景对应的概念格的Hasse图。
  
  2.2 相似度计算。两个概念格[8]的相似度计算可通过如下的方式进行,假如存在两个概念格G1、G2,令V1和V2分别为G1和G2中的结点,Arc1为与V1相关联的弧,Arc2为与V2相关联的弧。如果Arc1与Arc2的关系类型相同,若Arc1的弧头是G1的关键词结点,那么Arc2的弧头是G2的关键词结点,弧Arc1与弧Arc2类型相同,若Arc1的弧尾是G1的关键词结点,那么Arc2的弧尾是G2的关键词结点,称弧Arc1与弧Arc2类型相同。
  若G1与G2均为概念格,则计算它们的相似度分为以下三步:
  ① 计算关键词结点的相似度:令G1的关键词结点所代表的关键词为keyhead1,G2的关键词结点所代表的关键词为keyhead2,则两个关键词相似度sim(keyhead1,keyhead2)由以下公式完成:sim(keyhead1,keyhead2)=β/(β+dis(keyhead1,keyhead2),其中β为参数(β>1),dis(keyhead1,keyhead2)dis(semhead1,semhead2)为关键词keyhead1与关键词keyhead2之间的语义距离。
  ② 计算非关键词结点的相似度:
  simsecond=1n∑ni=1maxdim(nk1,nk2),sim(nk1,nk2)=β/(β+dis(nk1,nk2))n为G2中弧的条数。
  ③计算概念格的相似度:
  sim(G1,G2)=sim(keyhead1,keyhead2)×β1+sim(keyhead1,keyhead2)×β2×simsecond其中β1,β2为两个参数,β1+β2=1,β1>0.5
  2.3 实验。根据信息检索中查全率和查准率的定义我们可以从百度和google中以相同的查询式信息检索进行检索,将检索到的结果表示成概念格进行进行相似度计算和相关度判断得到查全率和查准率均高于其它知识表示方式下的信息检索技术。
  
  3 结语
  
  本文提出的将概念格用在信息检索技术中是概念格使用的一次有意义的尝试。用概念格的方法描述了关键词之间的语义信息及其关系,将它们用在检索技术中,对信息检索技术的发展有很大的促进作用。在搜索引擎下的实验表明,采用概念格表示知识和概念能够提高检索的效率。
  
  参考文献
  [1] 朱红蕾等.概念格中知识发现的研究.软件时空.2006年2期.247-249
  [2] 沈夏炯等.概念格构造算法的改进.计算机工程与应用. 2004年24期.100-103
  [3] 梁吉业等. 基于概念格的规则产生集挖掘算法.计算机研究与发展.2004年8期
  [4] 李云等. 基于属性的概念格渐进式生成算法.小型微型计算机系统.2004年8期
  [5] 董振东等. 知网.http://www.keenage.com
  [6] Bakker,R., Knowledge Graphs:Representation and Structruing of Scientific Knowledge, Ph.D. Thesis, University of Twente, 1987
  [7] Bartsch, R., Frame Representations and Discourse Representations, Inst. For Language , Logic and Information ,Univ. of Amsterdam,1987
  [8] Mizzaro S. (1998) “How many relevancies in information retrieval? ”.Interacting With Computers vol.10 no.3 pp.305-322
  收稿日期:2008-3-27
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
【摘要】 在现代物质生活已极度满足了以后,环境理所当然的成为每个人所关心的问题了。为了感受好的环境,旅游也正在以很快的速度发展着。本文主要是通过对环境艺术设计和旅游的论述,来探讨两者之间的发展联系。  【关键词】 环境艺术设计;旅游   【中图分类号】:G232.3【文献标识码】:A 【文章编号】:1009-9646(2008)04-0074-02    环境艺术设计与旅游有什么关系,为什么把环境
研究背景冠状动脉粥样硬化性心脏病(coronary atherosclerotic heart disease, CAD)简称冠心病,是指冠状动脉粥样硬化使血管腔狭窄或阻塞,或(和)因冠状动脉功能性改变(痉挛)
本文通过剖析我国当今英语课堂教学活动效果现状,总结出了具体的症结所在,课堂教学活动形式问题,课堂教学主体角色模糊不清等,从而针对这些问题提出了解决对策:以学生作为教
【摘要】 本文首先给出了公民教育平等权的概念及其与公民平等权的关系。接着指出构建和谐社会背景下的公民教育平等权主要是实现机会平等。然后指出我国当前公民教育权不平等问题的主要表现和体制根源。最后给出了对公民教育平等权宪法保障的现实和对策的思考。  【关键词】 教育平等权;公民平等权;宪法保障  【中图分类号】:G633.26【文献标识码】:A 【文章编号】:1009-9646(2008)04-007
【摘要】 在信息技术课堂教学中,学生的学习活动是一个系统、综合、复杂的心理过程。因此教师的任务不仅是按照教学进度推进教学,在课堂教学中可以运用一些心理效应来指导教学实践,挖掘学生的学习潜力,以提高课堂教学效率。文中从七个方面对此进行了进一步的论述。  【关键词】 信息技术;课堂教学;心理效应  【中图分类号】:G441【文献标识码】:A 【文章编号】:1009-9646(2008)04-0089-
当前,国家对发展职业教育尤为重视,中等职业学校作为重要的思想文化阵地,担负着培养造就社会主义合格建设者和可靠接班人的重要任务.要实现这一重任,关键在于学生必须形成正
在初中数学课堂教学中,做好对教学困境及其解困对策的分析研究,能够为初中数学高效课堂教学目标的实现带来帮助.笔者结合实践教学经验,在文本中从学生兴趣不足、学生地位缺失