论文部分内容阅读
随着计算机的普及和互联网的迅猛发展,Web上形成了大量的电子化文档,其中蕴涵着诸多可用的信息。因此,在信息抽取技术(Information Extraction:IE)发展基础上的Web信息抽取成为近年来的研究热点。另一方面,Web文档中的HTML表格作为一种信息表现形式愈发重要,有研究表明52%的Web文档都包含有标签[Lim[999]。这样以来如何快速、高效、准确的从这些表格中抽取用户所关注的信息就显得十分必要,需要进一步的研究。
通过对国内外技术进行分析研究,本文将HTML表格信息抽取分为三个阶段,分别是表格定位、表格结构分析和表格内容信息抽取。表格定位是指从包含大量噪音数据、结构复杂的Web页面中定位并识别出目标表格所在区域,采用基于启发式规则的方法,在对大量页面进行观察的基础上,总结规律,制定规则;同时为了应用规则将DOM树改造为以标签为最小处理颗粒的T-DOM树,设计算法对噪音表格进行剪枝,最终输出目标表格。表格结构识别是在此基础上对HTML表格作进一步研究,本文以单元格之间的差异为基础,计算生成表格整体行、列差异值,通过比较二者大小确定表格展开方式。表格内容信息抽取是指对表格内用户感兴趣的目标数据实施具体抽取,本文采用基于封装器的方法,对于不同信息源,选取样例表格,经过抽取规则生成算法学习生成具体抽取规则,进而构造封装器,不同封装器组成规则库,再通过信息抽取实施模块对其他表格进行操作。为了实现封装器自动生成,本文还引入了领域知识,由计算机自动生成抽取规则,实现初步的自动化。
论文整体以XML技术为基础,结合文档对象模型(DOM)和XPath等相关技术,设计并实现HTML表格信息抽取中的各个算法。为了检测算法性能,还进行了大量实验,结果表明本文提出的基于XML的HTML表格信息抽取方法达到了一定水平,但同时也存在一些不足,经过分析给出了进一步研究的建议。