论文部分内容阅读
随着信息大爆炸时代的到来,数字图书馆中电子书、图片、视频、音频等各类多媒体数字资源的数量日益庞大。为用户提供检索服务,让用户能够在海量的数字资源中找到感兴趣的内容成为数字图书馆亟待解决的问题。本课题是国家图书馆合作项目“数字家庭互动媒体服务系统”的子项目,任务是设计和实现一个全文检索系统,为多媒体数字资源发布平台提供对各种类型的多媒体资源统一的检索服务。本文设计的全文检索系统通过事先创建的元数据模板抽取多媒体数字资源的内容和特征建立索引,提高查全率和查准率。系统分为数字资源解析模块、建立索引模块、检索模块、中文分词模块以及权限控制模块共五个部分。中文分词模块是整个系统的核心模块,它为索引模块和检索模块提供分词功能。本文提出的中文分词模块具有三个特点:第一,被设计成独立的python第三方软件包,为应用开发者提供通用的分词功能;第二,配备了常用的中文分词组件,对上层应用提供统一的接口,降低中文分词模块与整个系统的耦合度。该模块可以无缝地整合到开发者的各类复杂应用系统中。第三,开发者通过简单的配置可以在不同的中文分词组件之间切换以便比较分词效果。本文首先对国家图书馆多媒体数字资源的特殊的存储格式、元数据的内容和结构设计进行了研究。接着对基于字符串匹配的分词算法、基于统计的分词算法和基于理解的分词算法进行了研究与分析,并且对常用的分词系统从实现原理、切分效果、暴露接口等方面进行了分析比较。最后对Xapian全文检索工具包的组织结构、实现原理和常用接口进行了研究。基于上述的研究,本文从用户角色分析、全文检索系统总体架构、功能模块设计和数据库设计这四方面对全文检索系统进行了详细设计与实现。通过对系统的查全率、查准率和检索速度等性能指标进行测试与分析,验证了系统具有较高的检索准确率和检索效率,最终能够满足对电子书、图片、视频、音频等各类多媒体数字资源统一检索服务的需求。