基于本体的机构信息智能检索系统的设计与实现

来源 :现代情报 | 被引量 : 0次 | 上传用户:wxjffh8gf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕本文提出了一个基于本体的智能检索系统的设计框架并实现了主要的功能模块,该检索系统对中科院图情方向的机构信息进行提取和加工,利用本体语言对中科院图情方向的组织机构,主要研究人员,重大研究项目等之间的逻辑进行描述,构建一个以机构为主要对象的具有逻辑推理 性的功能本体,并通过自定义规则,加载泛化规则引擎来实现系统的智能检索功能。
  〔关键词〕智能检索;机构信息;推理规则;本体建模
  〔中图分类号〕G35 〔文献标识码〕B 〔文章编号〕1008-0821(2009)03-0170-06
  
  本体对领域和任务进行了良好的描述,具有较好的概念层次结构和对逻辑推理的支持,从而在信息检索,特别是在智能检索中得到了很好的应用。在基于本體的智能检索系统中,通过对原始信息的加工提取和本体的语义推理机制,可以进一步提高检索结果和检索目标的相关性,从而使得检索结果更加符合人们的要求。
  起初,国内外本体研究机构[1]主要着力于顶层本体和领域本体的研究和探索,而现在随着功能本体广泛的应用,对于功能本体的研究也越来越多了。比如说,对一个跨国机构进行本体建模,利用本体对该机构的组织、资源、技术等进行逻辑描述。与资源直接相关是人,通过本体的逻辑性就可以知道,需要资源的人是属于哪个部门的,他具有什么样的研究技能。通过对机构的本体描述就可以优化机构的运作流程,促进信息沟通和便于协同管理。
  本文提出了基于功能本体的智能检索系统的构建模式和设计思想并且对系统的实现方案进行了解析和探索研究。
  
  1 智能检索系统框架设计方案
  
  本文采用以Java环境下的Eclipse平台加MySQL数据库作为系统实现的基础,并使用Jena和JPowerGraph等Java开源包。系统的体系结构如图1所示。
  
   2.1.2 本体知识的添加
  本体知识的添加的界面如图3所示。用户通过添加各个类别的实例来实现OWL事实库的初始化。本体的Schema和本体的初始事实库是以后进行语义推理的知识基础。用户也可以直接添加本体事实描述,用户首先选择相关的本体类别,比如说用户选择了“Branch”类,则后面级联的选择框会自动弹出事实库中已有的该类的实例,比如说用户选择了“国家科学图书馆北京分馆”的实例,然后选择“HasDepartment”关系,在最后的本体实例框中填写了“信息技术部”,这样用户就添加了这样一条本体事实:
  国家科学图书馆→HasDepartment→信息技术部
  
   2.1.3 结果语义可视化输出
  结果语义可视化输出如图4所示,这个功能主要是通过JPowerGraph开源包来实现的。用户在客户端提交了检索内容后,服务器端通过语义推理将与检索内容相关联的语义类、语义属性和语义关系传回给客户端,客户端再通过JPowerGraph可视化功能把获得的相关联的语义类、语义属性和语义关系的实例转化成节点和边,动态的呈现给用户。
  2.2 服务器端
  对于服务器端而言,包括数据层和推理层两层结构,所以服务器端主要实现以下两大功能模块:
  2.2.1 本体知识库的建立和持久化
  本文以中科院图情机构为例说明构建机构信息这个功能本体的基本流程。
  (1)机构信息本体的建立
  因为机构具有良好的层次性,所以采用自上而下的本体构建法。首先标识本体中最通用的概念,然后在通用层次上创建相应的种类并逐步的细化本体。总体而言只要包括以下3个步骤:
  ①分析机构本体和定义数据字典
  该机构本体是中科院图情方向的机构信息为基础,利用本体语言对该方向的组织机构、主要研究人员、重大研究项目等进行逻辑描述。所以相关的实体主要包括:
  
  词 汇Class/Property定 义OrganizationClass所有分支机构的父类BranchClass分支机构类DepartmentClass部门类InstructorClass导师类StudentClass学生类DirectionClass研究方向类ProjectClass研究项目类NameDatatype Property名称AddressDatatype Property地址IntroductionDatatype Property簡介InstructorNumDatatype Property导师数目StudentNumDatatype Property学生数目PositionDatatype Property职称SexDatatype Property性别PeriodDatatype Property时间段OutlayDatatype Property经费HasBranchsObject Property机构拥有的分支机构HasDepartmentsObject Property分支机构的部门HasInstructorsObject Property部门拥有的导师HasDirectionObject Property导师的研究方向 续表1
  词 汇Class/Property定 义HasStudentsObject Property导师指导的学生InverseofHasStudentsObject Property学生的指导导师HasProjectsObject Property导师的研究项目HasPartnerObject Property导师项目的合作老师
  ②建立类别、属性和实例
  类别:
  该本体包括Organization、Branch、Department、Instructor、Student、Direction、Project等类别及其它们的子类别和父类别,本体的根节点是owl:Thing。
  属性:
  在属性方面可分为数据属性(Datatype Property)和对象属性(Object Property)。
  数据属性:使用RDF(S)的数据类型,包括定义域(domain)、值域(range)和公理(axiom)。
  定义域:定义域限制该属性在哪一个类别使用。
  值域:数据属性的限制包含any、string、integer、boolean、float、symbol,可以使用xml schema datatype,在填入实例时只要符合其数据类型限制即可。
  公理:可以使用functional,如果一个属性P被声明为functional,那么对于每个个体,属性最多只有1个值。
  该机构信息本体的数据属性如表2所示。Name使用的定义域包括Organization、Branch、Department、Instructor、Student、Direction、Project等类别,因为这些类别都会有一个特定的名字,所以Axiom是Functional的。其它几项数据属性也同样具有Functional的特性。
  
  对象属性:仍然包括定义域(domain)、值域(range)和公理(axiom)3个方面。
  定义域:限制该属性在哪一个类别中使用。
  值域:对象属性的值域是类的实例而不是具体的数值。
  公理:包含Functional、InverseFunctional、Symmetric、transitive、Inverse等Axiom。
  该机构信息本体的对象属性如表3所示。
  
  HasBranch的Domain是Organization,Range是Branch类的实例,定义了Organization拥有的Branch。
  HasDepartment的Domain是Branch,Range是Department类的实例,定义了Branch拥有的Department。
  HasInstructors的Domain是Department,Range是Instructor类的实例,定义了Department拥有的Instructor。
  HasDirection的Domain是 Instructor,Range是Direction类的实例,定义了Instructor的Direction,因为中科院图情方向的老师一般都只有1个研究方向,所以Axiom是Functional。
  HasStudents的Domain是Instructor,Range是Student类的实例,定义了Instructor拥有的Student。因为中科院图情方向的老师一般都只有1个学生,所以Axiom是Functional。并且设定它与InverseofHasStudents具有Inverse的关系。
  InverseofHasStudents的Domain是Student,Range是Instructor类的实例,定义了Student的Instructor。它与HasStudents属性具有Inverse的关系,并且HasStudents是Functional的,所以InverseofHasStudents具有InverseFunctional属性。
  HasProjects的Domain是Instructor,Range是Project类的实例,定义了Instructor拥有的Project。
  HasPartner的Domain是Instructor ,Range是Instructor类的实例,定义了Instructor拥有的Partner。因为对于同一个项目的导师而言他们是互为partner,因此Axiom是Symmetric。
  实例:
  在本体的Schema构建完成后,Organization类、Branch类、Department类、Instructor类、Student类、Direction类、Project类的实例作为初始化的查询条件,在本体规则基础上经过首次推理以后形成原始的OWL知识库。
  (2)本体知识库的持久化
  本体数据持久化有文件存储和数据库存储2种方式,文件存储是将本体库以文件形式存储在本地文件系统中,将数据从文件中读入内存,在内存中对本体库进行一系列的操作,操作完成后再将本体库以文件形式写回到文件中。
  以文件方式存储本体库轻便快捷,适合于小型的本体库。因为它不需要过多的配置,而且便于备份、复制,还可以随时编辑修改,而且查询速度快。缺点在于不适合较大的本体库,因为它每次都需要读入内存在做操作,因此耗用太多的内存,如果再加入推理机将会占用大量 的内存,而且对于模型的修改需要一次性保存全部模型,效率不高。
  而关系数据库来持久化本体数据可以处理更大更复杂的本体模型,而且利用数据库存储本体模型,可以使得本体模型具有更大的灵活性和可扩展性,对于大多数本体应用来说,数据库方式是较好的选择。
  因此本智能检索系统采用关系数据库来持久化本体数据,Jena通过一个数据库引擎接口实现了对本体模型的透明持久化,目前支持的数据库主要包括3种:MySQL,Oracle,PostgreSQL and Microsoft SQL server。本系统采用MySQL作为本体数据库。其核心代码包括4个方面:
  ①创建数据库的连接
  IDBConnection conn=new IDBConnection(MDBURL,MDBUSER,MDBPASSWD,MDB);
  OntModelSpec spec=OntModelSpec.OWLMEM;
  spec.setModelMaker(ModelFactory.createModelRDBMaker(conn));
  ②在已有数据库连接的基础上创建本体模型
  Model base=maker.createModel(″MyNameModel″);
  OntModel model=ModelFactory.createOntologyModel(spec,base);
  ③把本体本件转化成三元组存储到MySQL数据库中
  URL url=ClassLoader.getSystemResource(″file:src-examples/data/test1.owl″);
  model.read(url.toString(),″RDF/XML-ABBREV″);
  ④从MySQL数据库中获取已存储的本体数据
  Model m=
  ModelFactory.createModelRDBMaker(conn.openModel(″MyNameModel″));
  2.2.2 本体推理规则库的建立和推理引擎的加载
  (1)建立推理规则库[8]
  在基于规则的推理机中,规则被定义为一个Java的Rule对象,该对象由body terms(前提)的list,head terms(结论)list以及可选的名字和可选的方向来定义。每一个term或者ClauseEntry是一个三元模式(triple pattern),一个扩展的三元模式(extended triple pattern)或者一个内嵌过程原语的调用。
  规则文件支持一些额外的宏命令:
  @prefix pre:http:∥domain/url#。
  定义一个前缀pre,前缀对规则文件来说是局部的。
  @include
  包含在一个给定文件中定义的规则。不管@include出现在哪里,包含的规则都将出现在用户定义的规则前面。规则文件可以包含预定义的规则,例如RDFS和OWL等,这时urlToRuleFile被关键字RDFS,OWL,OWLMicro,OWLMini取代。
  下面是包含RDFS预定义规则的一个规则文件的完整例子:
  # Example rule file
  @prefix ins:.
  @prefix rel:.
  @include.
  [rule1:(?f ins:hasproject?a)(?u ins:hasproject?a)->(?f rel:haspartner?u)]
  这条规则是指如果导师f有项目a,导师u也有项目a,推出导师f和导师u是合作者。
  (2)加载规则推理引擎[9]
  规则文件的加载和分析是这样进行的:
  List rules=Rule.rulesFromURL(″file:myfile.rules″);
  或者
  BufferedReader br=/*open reader*/;
  List rules=Rule.parseRules(Rule.rulesParserFromReader(br));
  或者
  String ruleSrc=/*lists of rules in lines*/
  List rules=Rule.parseRules(rulesSrc);
  
  3 小 结
  
  本文以机构信息为例着重阐述了基于本体的智能检索系统框架设计和基本功能模块的实现。本体推理模块在本体的描述逻辑上加载了可以自定义规则的泛化规则引擎,提高了推理能力,从而可以获得更加有意义的蕴含知识。本体数据持久化的模块采用数据存储与本体模型存储相分离的方案,即:本体数据库只存储基本的数据信息,本体Schema采用单独的文件保存。OWL知识库的已有事实在加载本体Schema后,经过推理获得新的蕴含知识添加到OWL知识库中,从而实现了OWL知识库的更新与扩充。这种方式的本体数据存储的数据结构设计更加简单,本体模型也具有更好的迁移性。而对于如何做好本体的可重用性和面向特定领域之间的平衡,以及推理规则的优化和大规模本体存储的数据结构设计是今后研究工作的重点和难点所在。
  
  参考文献
  [1]邓志鸿,唐世渭,张铭,等.Oniology研究综述[J].北京大学学报:自然科学版,2002,38(5):730-738.
  [2]SPARQL Query Language for RDF[EB/OL].http:∥www.w3.org/TR/rdf-sparql-query,2008-05-10.
  [3]董慧,余传明,杨宁,等.基于本体的数字图书馆检索模型研究——体系结构解析[J].情报学报,2006,25(3):269-275.
  [4]Zhijun Zhang.Ontology Query Languages for the Semantic Web:A Performance Evaluation.Masters Thesis,2005:5-34.
  [5]F.Baader,D.Calvanese,D.MeGuinnes,The Description Logic Handbook:Theory,Implementation and Applications,Cambridge University Press,2003.
  [6]Jena-A Semantic Web Framework for Java[EB/OL].http:∥jena.sourceforge.net,2008-03-15,2008-09-10.
  [7]袁方,王濤.基于本体的推理机研究[J].计算机工程与应用,2006,(9):158-165.
  [8]侯冕,廖乐健.基于语义Web本体语言的推理机引擎的实现[J].军民两用技术与产品,2005.7:41-43.
  [9]韩亚洪,刘永革.本体的查询与推理机制研究[J].计算机工程与应用,2005.9:82-85.
其他文献
热播剧《香蜜沉沉烬如霜》不久前完美收官。陈钰琪饰演的鎏英在剧中爱恨坦荡、生性阔朗、英气十足,是一位所向披靡的沙场女将,凭此角色,陈钰琪圈粉无数。公主命,却没有公主病  陈钰琪出生于素有天府之国之称的四川成都,父母希望她做大家闺秀,晚上七点之后连小区门都不让她出。大学毕业后,陈钰琪接连出演了多部IP剧,演得最多的是公主。但生活中的她不仅没有“公主病”,反而是不折不扣的女汉子。最典型的是上学时她承包了
“三分之二的职场人士在求职过程中最终放弃工作机会。”在这个劳动力导向的市场中,对于雇员来讲,薪金已不再是留住他们的唯一动力;而对于雇主来讲,如何在人才短缺的市场中留住潜力股员工、有效地将企业的魅力展示在员工面前,仍是他们最急需要攻克的难点。  在2013翰德薪酬与招聘洞察报告中,翰德就人才短缺市场中求职者中途退出招聘流程的现象不断加剧(甚至签订合约之后退出)这一令人担忧的问题,征求了他们的看法。 
原创短信发送至13064734766    1.我是丘比特派来的使者,来扶持你这个爱情上的贫下中农,给你一个机会做我女朋友,千万别说感激的话,谁让咱博爱嘛!(江西 末末)  2.若有一天,你走得太倦,只要一转身,我的祝福就在你身边,不管有多远,不管多少年,化这祝福为星儿点点,闪在晨曦,闪在日暮,闪在你生命的每一天!(江苏 柯南)  3.想你想成了心事,等你等成了坚持,相见与不见已成为习惯,习惯成自
时光匆匆流逝,看不见的;青春静静绽放,看得见的。那些相对立的词语啊,竟然都可以用在同样的对象上——年轻的朋友们应该是健康的,年轻的朋友们又难免被病痛、困惑缠绕着。有这些烦恼想找人出出主意么?快告诉艾薇吧!  我的电子信箱:  aiweijj@126.com  也可以给我写信:310011 杭州市邮政信箱505号现代青年杂志社杭州工作站 艾薇    牙齿畸形的矫正方法    艾薇姐姐,你好!我是一个
参与教学法,是教学中重视学生主体性的发挥,让学生在参与学习的过程中全面地学习,全面发展的一种教学方法。在生物教学中,应用参与教学法,可以提高教学效率。  一、引导学生参与主题发现  传统的生物教学方法中,教师会直接告诉学生今天要学习的主题是什么。这令学生缺少参与感。通常学生会被动地等待教师给出学习的主题,然后针对教师给出的主题来进行后续的学习。在参与式教学中,教师要为学生设计学习情境,让学生在情境
〔摘 要〕因特网创造了全球信息资源共享的网络环境,高校图书采访工作无论在内容上还是在工作方式上都在发生着深刻的变化。本文在分析高校读者阅读倾向以及图书馆文献利用率基础上,提出了网络时代高校图书馆如何从读者需求出发,迎接数字化挑战的新思路。  〔关键词〕高校图书馆;文献采访;读者阅读倾向;文献利用率;图书荐购;信息组织  〔中图分类号〕G258.6 〔文献标识码〕A 〔文章编号〕1008-0821(
杭州超女第四名朱雅琼来自武汉,从小在汉正街长大。  朱雅琼从海选到晋级唱的都是自己写的歌,喜欢她的粉丝叫她“音乐才女”。而这位才女自小家境贫寒,和父母一直挤住在20平米的小房子里。2004年,从华中师范大学音乐系毕业后,朱雅琼到上海打工,至今仍在还当年买钢琴时欠下的债。别的超女都有众多家人陪同参加比赛,她妈妈却还是从晨报上得知她参加超女的消息。  贫穷并不能阻止她追求音乐的梦想,朱雅琼走得艰辛,也
一个失去亲情的“神手女扒”,在一次窃得巨款四万元时,她从偷来的病历诊断书中得知,女失主的丈夫居然得了和她爸爸一样的病!这让“神手女扒”的良心出现了前所未有的颤抖,是归还?还是占有?同时也在演绎着人间大爱……    “女神偷”顺手牵羊,牵出救命款    2006年3月10日上午8点40分,从河北省唐山市客运站徐徐开出一辆到北京的长途大巴,开出不久,一名时尚女孩在路边招手上车。上车后,她飞快地将满满一
2017年2月23日下午,贝勒比斯学院(Bellerbys College)预科与杜伦大学兰卡斯特大学联合录取发布会暨英国大使馆文化教育处(British Council)联合讲座在北京光明日报大楼成功举行,吸引了众多教育界人士、学生家长和多家媒体的关注和参与。  贝勒比斯晒成绩单:  多名学生收获牛津剑桥等名校Offer  贝勒比斯学院被人们视为英国顶尖国际高中及一流的大学预科课程专家,目前学院
近年来,80后党员干部落马的消息屡屡刷屏,人们不禁要问,他们到底怎么了?本文搜集了党的十八大以来一些80后干部违纪违法案例,透过这些案例,或许能找到一部分答案。乘凉的“大树”变成“坑”  在当今硕士、博士林立的党员干部中,一些被查处的80后干部学历其实并不突出,但其中有些人的仕途走得很顺。  时任汉川市委副书记洪永旺,因为一则公告出了名。2016年5月,孝感市政府发布的这则公告显示,洪永旺拟任安陆