论文部分内容阅读
该文在综述了基本情况后,分析了采用XML文档进行信息提取的优点,提出了一个基于XML的中间文档格式IEML(Information Extraction Markup Language),包括文档的标题、篇章结构、文本格式信息、链接、表格和一些元数据信息等.详述了将常用的文档格式如PDF、Word等转换为XML中间文档的方法.在这个XML中间文档的基础上进行了文本内容特征提取的工作.系统的主要特点如下:实现多种常用格式文档的内容和结构的分析定义通用的文档格式描述语言,并基于对文档的形式描述实现对多种文档的识别、分析基于中间文档格式提取出文档的标题.根据具体模板提取出了电子期刊论文的标题、摘要、关键词等信息.