基于XML的HTML表格信息抽取方法

来源 :东南大学 | 被引量 : 0次 | 上传用户:dusun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的普及和互联网的迅猛发展,Web上形成了大量的电子化文档,其中蕴涵着诸多可用的信息。因此,在信息抽取技术(Information Extraction:IE)发展基础上的Web信息抽取成为近年来的研究热点。另一方面,Web文档中的HTML表格作为一种信息表现形式愈发重要,有研究表明52%的Web文档都包含有标签[Lim[999]。这样以来如何快速、高效、准确的从这些表格中抽取用户所关注的信息就显得十分必要,需要进一步的研究。   通过对国内外技术进行分析研究,本文将HTML表格信息抽取分为三个阶段,分别是表格定位、表格结构分析和表格内容信息抽取。表格定位是指从包含大量噪音数据、结构复杂的Web页面中定位并识别出目标表格所在区域,采用基于启发式规则的方法,在对大量页面进行观察的基础上,总结规律,制定规则;同时为了应用规则将DOM树改造为以
标签为最小处理颗粒的T-DOM树,设计算法对噪音表格进行剪枝,最终输出目标表格。表格结构识别是在此基础上对HTML表格作进一步研究,本文以单元格之间的差异为基础,计算生成表格整体行、列差异值,通过比较二者大小确定表格展开方式。表格内容信息抽取是指对表格内用户感兴趣的目标数据实施具体抽取,本文采用基于封装器的方法,对于不同信息源,选取样例表格,经过抽取规则生成算法学习生成具体抽取规则,进而构造封装器,不同封装器组成规则库,再通过信息抽取实施模块对其他表格进行操作。为了实现封装器自动生成,本文还引入了领域知识,由计算机自动生成抽取规则,实现初步的自动化。   论文整体以XML技术为基础,结合文档对象模型(DOM)和XPath等相关技术,设计并实现HTML表格信息抽取中的各个算法。为了检测算法性能,还进行了大量实验,结果表明本文提出的基于XML的HTML表格信息抽取方法达到了一定水平,但同时也存在一些不足,经过分析给出了进一步研究的建议。
其他文献
重构指在不改变软件外在行为的前提下,改善软件内部结构,从而在软件演化过程中优化软件质量,提高软件可理解性、可维护性和可扩展性等。二十多年来,人们对重构技术进行了深入地研
正交频分复用(OFDM)技术被当今社会普遍认为是4G的核心技术之一。目前已经被应用于无线局域网(WLAN:Wireless Local Area Networks),无线城域网(WMAN:Wireless Metropolitan
随着计算机网络技术的不断成熟,网络化考试系统成为计算机辅助教学的一个重要应用,而校园网建设的日渐完善,为考试系统的应用提供了更加有利的平台。作为考试系统的核心和难
HITTING SET-问题是组合学中的一个经典计算问题,它和集合覆盖(Set Cover)问题等价,其任务是计算有限集合S的一个基数较小的子集D使之满足和集合C的每一个元素相交非空,其中
学位
企业级软件产品规模庞大,模块众多,配置复杂,其中最典型的代表就是ERP企业管理软件。一个企业如果将采购、生产、销售、财务管理全部使用ERP企业管理软件来管理,往往需要耗费一、
条码技术是集编码、印刷、识别、数据采集和处理于一体的综合技术。一维条码在生产和生活的各个方面得到了广泛应用,但是一维条码本身的缺点--信息量少、依赖数据库等缺点也日
USB(Universal Serial Bus)是目前应用非常广泛的一种总线形式,其即插即用、热插拔、接口体积小巧等优点给计算机外设连接技术带来重大变革。μC/OS-Ⅱ是一个源码公开、完整
随着分子生物科学和信息科学的快速发展,生物信息技术作为新型学科成为前沿研究领域,通过基因分类可以将海量的基因表达数据划分成数量相对较少且具有生物意义的组,并在此基
储层建模三维可视化是指把科学计算可视化和储层建模结合起来,根据己知的测井数据等数据,通过使用地质统计学算法,来建立储层模型,并使用三维可视化方法,将储层数据模型用直观三维
图书管理系统的发展经历过单机、终端/主机和局域网下客户机/服务器(C/S)阶段。近年,随着Intemet技术的发展,浏览器/服务器(B/S)作为C/S结构的一种改进,正日益取代C/S结构,成为We
学位论文基于XML的HTML表格信息抽取方法发表于2009年期东南大学作者陈旸,本篇论文的所有权归原作者陈旸所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。