【摘 要】
:
随着Internet上信息的迅猛增长,Web已成为信息的海洋,如何从这片遍布全球的信息海洋中快速准确的获取所需要的信息已成为一个极具现实意义的重大课题。Web信息抽取技术正是在这
论文部分内容阅读
随着Internet上信息的迅猛增长,Web已成为信息的海洋,如何从这片遍布全球的信息海洋中快速准确的获取所需要的信息已成为一个极具现实意义的重大课题。Web信息抽取技术正是在这样的背景下应运而生的。
分装器(Wrapper)技术是当前Web信息抽取广泛采用的一种技术,针对分装器生成问题,人们提出了各种各样的方法,但这些方法都有其应用的局限性。
本文在利用国内外成果的基础上,进行了一些有益的探索,提出了一种新型的基于工作流的Web信息抽取机制,意在通过提供大量的信息抽取功能组件来简化信息抽取分装器程序的开发。所做的研究工作主要包括:
(1)改进了传统的基于DOM树的页面分析技术,从增强系统易用性的角度出发,使用一个Java浏览器引擎设计了一个小型的系统内嵌浏览器,使用户能够直接在样本页面中通过鼠标来灵活的定义需要抽取的各种信息,如文本、图片、表格等等。
(2)将工作流技术应用到信息抽取系统中,设计了信息抽取工作流的基本模型,实现了一个可视化的信息抽取工作流模型定义工具,使用户能够定义自己的抽取流程,同时系统能够模拟用户浏览网页时的一些基本动作,如翻页、提交表单、输入等等,使得信息抽取就像平时我们自己上网搜寻信息一样。
(3)设计实现了一个可扩展的信息抽取动作框架,使用户能够扩充自己的信息抽取算法。同时实现了大量的信息抽取原子动作,如文本抽取、图片抽取、提交表单、输入文字、遍历标签等等。
本文的创新所在是将工作流机制引入了信息抽取系统的设计之中,并提供了一个完全可视化的工作平台,让用户能够以所见即所得的方式快速完成信息抽取任务。实验表明本文构建的可视化网页信息抽取系统能够帮助用户快速、准确的构造用于从网页上抽取信息的分装器程序,是一个通用的信息抽取平台,有着很好的实用价值。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是物联网技术的重要组成部分,近年来受到广泛的讨论和关注,成为研究热点并已被应用于国家安全和国民经济等多方面。WSN由大量具有能
随着自然语言处理技术的迅速发展,机器翻译、信息检索、信息抽取、自动问答、文本连贯性评价等在内的研究都有了较大的突破,但发展的同时也面临着瓶颈。在语言的语义理解方面,计
近年来,嵌入式Linux在工业控制、信息家电、个人数字化终端等领域得到了广泛应用,对嵌入式Linux的研究和改进也成为现在最热的研究领域之一。根文件系统作为嵌入式Linux的重
多源遥感图像协同处理可以提高遥感应用效果,而多源遥感图像配准是多源遥感图像协同处理的前提。因此,多源遥感图像配准技术的研究具有重要意义。本文以SIFT特征提取与配准为基础,结合图像的其他信息,研究多源遥感图像的配准。论文主要研究的内容包括:(1)简单描述了本文研究的相关背景与实际意义,查阅国内外研究相关的文献,并对其进行分析与总结,为本文提出改进的配准方法提供重要的科学参考与理论支持。(2)对配准
近年来,人脸识别成为模式识别领域中的一个研究热点。在人脸识别领域中,姿态、光照和表情的变化对人脸识别的影响已经成为该研究领域中公认的三大难点问题。 在充分考察目
入侵检测是网络安全中的一个工作,它是用来识别网络服务中的请求是入侵请求还是安全请求。其中用的最广泛的入侵检测工具箱是SNORT,虽然这种方法取得成功,但SNORT目前是依赖
大型企业应用软件比较复杂,传统的软件架构设计方法缺乏有效的模块复用和信息交流能力,企业内部容易出现“信息孤岛”问题;不良的软件架构设计容易导致增加企业维护和升级现
针对特殊物品的安全防伪系统,既要实现对物品的存在状态进行实时检测,对物品的真伪进行鉴别,又要对其使用者进行身份认证,对使用情况进行记录。采用单一的RFID技术无法保证使用者身份的唯一性,采用单一的指纹识别系统,无法辨别物品的真伪。本文提出并构建了一种基于RFID和指纹识别技术的安全防伪系统,给出了系统的总体架构,整个系统划分为五层:人机交互层、设备管理层、中间层、链路控制层、物理层,各层次用以实现
随着网格技术的高速发展,网格资源管理已成为实现高性能计算的关键。如何高效、准确、科学地发现网格资源是网格资源管理的一个重要问题。因为整个网格的计算资源、连同网格
准确的信道估计是MIMO-OFDM无线系统具有高速率、高可靠性能的保证。常用的信道估计是通过发送训练序列或导频符号进行信道估计,但是训练序列或导频符号严重影响了系统有限带