基于XML的文档信息提取技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：sun4679

【摘要】

：

该文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构

【作者】

：

葛一兵

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2003年期

【关键词】

：

XML 信息提取 PDF WORD 文档标记语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构、文本格式信息、链接、表格和一些元数据信息等.详述了将常用的文档格式如PDF、Word等转换为XML中间文档的方法.在这个XML中间文档的基础上进行了文本内容特征提取的工作.系统的主要特点如下:实现多种常用格式文档的内容和结构的分析定义通用的文档格式描述语言,并基于对文档的形式描述实现对多种文档的识别、分析基于中间文档格式提取出文档的标题.根据具体模板提取出了电子期刊论文的标题、摘要、关键词等信息.

其他文献

基于卷板机控制的多轴数控系统的研究及应用

本文在数控系统平台模式开发的基础上，基于卷板机控制功能，开发设计了多种功能不同的控制模块，上位单片机控制模块、开关量控制模块、模拟量控制模块、显示模块等。根据卷板机的

学位

单片机RS-485总线光电耦合器数模转换器

入侵检测系统分析引擎的研究与实现

随着计算机网络的广泛使用,网络之间信息的传输量不可避免的急剧增长,针对网络进行的入侵和攻击行为也层出不穷,提高网络的安全性和可靠性成为人们目前关心和研究的主要问题.

学位

网络安全入侵检测误用检测状态转换分析技术(STAT)

光纤在线监测系统的研究

本文对光纤在线监测系统的国内外研究现状进行了调查研究,特别是对国内一些厂家的相关产品及市场占有情况作了比较深入的调研.通过对北京世纪瑞尔技术股份有限公司开发的Fibe

学位

在线监测光纤故障光纤监测系统

基于WEB的推荐技术的研究与实现

该文详尽分析了现有Web推荐系统使用的技术和存在的问题,在已有的Web数据模型基础上,结合Web挖掘技术对Web用户的访问模式发现、个性化推荐进行深入研究和探讨,提出了一个快

学位

Web推荐技术多层关联规则增量更新Web数据挖掘

面向实时分布系统的实时网络技术研究

将实时网络与中间件技术相结合，针对实时分布系统对透明的实时数据传输、实时分布的任务调度和异构平台集成的需求，研究满足上述需求的实时网络技术。使用实时网络来解决计

学位

实时分布系统实时网络集成SBS

基于数据仓库的外贸业务智能决策系统

随着计算机信息技术和互联网技术的发展，社会各行各业的分工、业务流程、管理流程在发生着重大的改变。而如何运用先进的信息技术构建电子政府，实践电子政务，以电子化、信息化手

学位

外贸业务决策支持数据仓库联机分析处理（OLAP）数据挖掘（DM）XML Web服务简单对象访问协议。

数据仓库主动更新机制研究

在数据库技术发展过程中,联机事务处理(OLTP,On-Line Transaction Processing)一度占据着数据库应用的主流.随着市场竞争的加剧,企业需要对自身业务的动作及市场相关行业的发

学位

数据仓库数据仓库更新ECA规则

嵌入式实时网络通信技术研究

近年来，嵌入式系统以其可靠性强、体积小、专用性、成本低等特性得到日益广泛的应用。与此同时，一个独立的嵌入式系统的功能缺陷也逐渐暴露出来。新一代嵌入计算系统的功能集成

学位

嵌入式系统网络实时以太网RTCC协议TCP/IP协议OSI参考模型

大规模知识推理及其在深度问答中的应用研究

随着信息技术的飞速发展，尤其是智能个人助理、智能客服、智能教育等应用的出现，人们已经不仅仅将互联网作为一个资料查询的工具，而且期望它能够智能地替人们完成信息筛选、归纳

学位

大规模知识推理规则挖掘概率逻辑深度问答

用于智能交通系统的EJB组件研究及其性能分析

Enterprise JavaBean(EJB)组件是基于J2EE规范的服务器端组件的体系结构。通过EJB规范可以开发和部署可扩展的、健壮的、安全的分布式应用。系统性能是设计EJB组件体系时需要

学位

企业Bean组件J2EE规范排队系统随机服务过程智能交通系统性能

基于XML的文档信息提取技术研究

与本文相关的学术论文