基于XML的文档信息提取技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:sun4679
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构、文本格式信息、链接、表格和一些元数据信息等.详述了将常用的文档格式如PDF、Word等转换为XML中间文档的方法.在这个XML中间文档的基础上进行了文本内容特征提取的工作.系统的主要特点如下:实现多种常用格式文档的内容和结构的分析定义通用的文档格式描述语言,并基于对文档的形式描述实现对多种文档的识别、分析基于中间文档格式提取出文档的标题.根据具体模板提取出了电子期刊论文的标题、摘要、关键词等信息.
其他文献
本文在数控系统平台模式开发的基础上,基于卷板机控制功能,开发设计了多种功能不同的控制模块,上位单片机控制模块、开关量控制模块、模拟量控制模块、显示模块等。根据卷板机的
随着计算机网络的广泛使用,网络之间信息的传输量不可避免的急剧增长,针对网络进行的入侵和攻击行为也层出不穷,提高网络的安全性和可靠性成为人们目前关心和研究的主要问题.
本文对光纤在线监测系统的国内外研究现状进行了调查研究,特别是对国内一些厂家的相关产品及市场占有情况作了比较深入的调研.通过对北京世纪瑞尔技术股份有限公司开发的Fibe
该文详尽分析了现有Web推荐系统使用的技术和存在的问题,在已有的Web数据模型基础上,结合Web挖掘技术对Web用户的访问模式发现、个性化推荐进行深入研究和探讨,提出了一个快
将实时网络与中间件技术相结合,针对实时分布系统对透明的实时数据传输、实时分布的任务调度和异构平台集成的需求,研究满足上述需求的实时网络技术。 使用实时网络来解决计
随着计算机信息技术和互联网技术的发展,社会各行各业的分工、业务流程、管理流程在发生着重大的改变。而如何运用先进的信息技术构建电子政府,实践电子政务,以电子化、信息化手
在数据库技术发展过程中,联机事务处理(OLTP,On-Line Transaction Processing)一度占据着数据库应用的主流.随着市场竞争的加剧,企业需要对自身业务的动作及市场相关行业的发
近年来,嵌入式系统以其可靠性强、体积小、专用性、成本低等特性得到日益广泛的应用。与此同时,一个独立的嵌入式系统的功能缺陷也逐渐暴露出来。新一代嵌入计算系统的功能集成
随着信息技术的飞速发展,尤其是智能个人助理、智能客服、智能教育等应用的出现,人们已经不仅仅将互联网作为一个资料查询的工具,而且期望它能够智能地替人们完成信息筛选、归纳
Enterprise JavaBean(EJB)组件是基于J2EE规范的服务器端组件的体系结构。通过EJB规范可以开发和部署可扩展的、健壮的、安全的分布式应用。系统性能是设计EJB组件体系时需要