PDF文档语义信息抽取研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:xiaozi134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PDF文档应用范围十分广泛,数量极其巨大,而且PDF的应用仍然处于继续发展的状态,它在不断地被更多的用户所接受和采纳。PDF应用的广泛性和它继续蓬勃发展的状态与对PDF文档的有效管理的滞后性形成了一对十分尖锐的矛盾,对PDF基于语义的精确查询和管理势在必行。 本系统的将信息抽取技术和机器学习技术的思想相结合,实现了从PDF文档中按语义抽取出有用的数据,并包装成XML文档。本系统的实现主要分为两个过程,一是通过样本学习生成抽取规则,即用户先在PDF视图环境中根据对PDF样本文档理解,创建语义模式,对页面信息附加语义,然后通过用户标记PDF样本文档中的数据项,并在用户创建的语义模式中选择相应的语义项,在语义模式语义项与PDF样本文档中数据项之间建立映射关系;在创建语义模式、建立映射关系的同时,用户将PDF样本文档也提交到预处理模块,经过转化得到样本XML文档;系统针对前面建立的映射关系和样本XML文档进行自动地学习,生成抽取规则;二是利用抽取规则从文档集中抽取出有用数据,并自动包装成包含语义的数据,即用户将PDF文档集及其领域信息一起提交给系统,系统自动地将文档集通过预处理生成Well-formed XML文档集,同时根据领域知识获取相应的抽取规则,然后自动地将抽取规则应用于Well-formed XML文档集,得到具有自描述性的包含语义的XML文档。本系统对于实现PDF文档基于语义的精确查询和管理具有十分重要的现实意义。
其他文献
随着电子工业和计算机技术的发展,目前继电保护已进入微机保护的时代,即采用单片微机代替传统的继电器,智能的实现继电保护的各个功能。现有国内外先进的综合数字继电器通常是集保护、测量、控制、监测、通讯和显示等功能于一体,在配电系统的二次设计上可采用一个单独的综合装置来实现以前的所有二次元件的功能,可作为综合自动化系统的基础元件,也可作为智能化开关柜的基本电器元件。 本文在分析国内外产品以及国内需求
数据挖掘(DM)是从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程。自从八十年代粗糙集理论被提出以来,国内外学者不断地对该理论进行了广泛的研究,提
地理信息系统(Geographic Information System,GIS)是一种为了获取、存储、检索、分析和显示空间定位数据而建立的计算机化的数据库管理系统。是20世纪60年代开始迅速发展起来
话单采集系统是宽带计费系统的关键子系统,负责采集计费系统产生的计费话单。计费话单是宽带接入服务商的计费依据,所以准确无误地采集计费话单具有非常重要的意义。 本课
入侵检测作为一种主动的信息安全保障措施,能根据入侵行为的踪迹和规律发现入侵行为,从而有效地弥补了传统安全防护技术的缺陷,成为防火墙之后的又一道安全防线。 本文首
近年来,随着互联网及信息化技术的不断发展,3G无线传输技术与计算机信息技术相结合的应用越来越普遍,并为设备远程监测技术的发展创造了条件。特别是“十二五”规划中“全面提高
网格技术及其基础设施可实现不同组织内部及彼此之间的资源和服务的高度集成,它可以为高性能计算和问题解决带来新的方法和途径。国家自然科学基金“AMS数据计算环境的研究与
本文将围绕节能这一主题,在一些与节能问题密切相关的算法和协议上展开研究。研究的侧重点选择在拓扑管理技术,路由和自组织技术以及拥塞控制与速率控制机制等方面。论文中的工
  本文对家庭网络结构进行了深入的探讨和剖析,阐述了“863”计划设计的家庭网络核心SoC平台的整体框架结构,分析比较了各种无线家庭网络协议,鉴于蓝牙技术巨大的市场支持力和
众所周知,人类感知的大部分信息是通过视觉获得的,而且在真实的世界里,人所感受到的是三维信息,如何更好得表现这些三维信息,一直是一个研究热点。三维重建正是在此种情况下