WEB信息的抽取与集成

来源 :东南大学 | 被引量 : 0次 | 上传用户:woshixiaogao132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、通讯技术的飞速发展和个人计算机的普及,Internet作为新一代的信息载体和交流平台,在人们的生活、工作中扮演越来越重要的角色,尤其是它所蕴涵的信息价值,越来越受到人们的重视。但是,Web上的数据是非结构化或者是半结构化的数据,它只能被各种浏览器识别、解释、显示,却不能被计算机或应用程序所理解,不像传统的数据库数据那样,有确定的模式结构、有明确的语义信息、提供准确高效的查询。如何从这些海量的数据中找出对自己有用的信息,为我所用,这便是Web信息抽取的要求。目前的一些Web应用程序,它们是针对具体的应用的,往往采用人工的方法完成“包装器”的生成,也就是将Web数据抽取的信息硬编码到程序中,来实现数据的抽取工作。这样一旦上述Web数据抽取信息发生了改变,都会导致源程序的修改与重新编译,维护起来非常困难。本文总结了过去一些Web信息抽取技术,针对现有一些Web应用程序的不足与局限性,开发了我们自己的信息抽取工具。本信息抽取工具在整体上采用抽取过程逻辑定义与抽取过程执行模块相分离的结构,这样,可以提高系统的灵活性,充分利用现有资源。Web信息抽取出来之后,如果不加以利用,那将是毫无价值的。同时,抽取出来的结果也不一定能直接集成到目的库中去,必须要先进行清理、转换。所以,我们设计实现了一套ETL工具,来实现对Web数据的集成。此ETL工具不仅对Web数据适用,还可以应用于异构数据源,实现异构数据源数据的集成。
其他文献
随着计算机图形图像处理技术的日益发展,开始出现了许多计算机辅助2D动画制作的相关技术,其中2.5D动画模型在辅助2D动画制作中把2D动画制作和3D建模渲染生成动画技术的优势结
网格是一种专门针对复杂科学计算应用的新型计算模式,其目标是实现一种无限规模的全球化的资源共享与协作。随着网格技术的发展和应用的扩展,网格逐步进入到商业领域中,并将极大
随着计算机技术和网络技术的发展,特别是网络分布计算的发展,使得分布式系统跨时间、跨空间、跨设备、跨平台的资源共享和协同工作成为可能,但也导致软件系统在规模和复杂度上的
放射性物质目前广泛应用核电、工业探伤、医学检测等领域,其在提供大量便利的同时,一旦发生放射性泄漏事故对人体伤害非常巨大。2011年日本地震所引发的福岛核辐射危机后,社会对
近年来,IP网络飞速发展与普及,网络的建设也比比皆是。在这种背景下,网络的优化设计变得越来越重要。这方面的研究有助于建立起经济、高性能、可靠的网络。 传统的优化设
无线传感器网络是一种全新的信息获取和处理技术,它集成了传感器、微机电系统和网络三大技术。它不依赖任何固定的基础设施,具有分布式、自组性、动态性、快速构建等优点,可以应
随着X射线衍射以及核磁共振等技术的发展,越来越多的生物大分子的三维结构被测定出来,计算机辅助药物设计呈现出了突飞猛进之势,药物分子虚拟筛选是其中的重要环节。计算机药
突发事件应急需要根据应急预案所定义的处置流程,通常由若干管理域几十个机构信息系统的前置机进行协同工作。如何实现从应急预案业务衔接流程到前置机Web服务的映射,是研发
本文主要研究IPv6技术在用户程序中的应用,该课题的研究依托于贵州省高速公路开发总公司的高速公路智能交通监控管理系统(黔科办200304),作者在IPv4基础上开发了该系统,提出在该
越来越多的多媒体应用追求渲染效果的真实感,使用者对画面效果的要求也越来越高,真实世界的光照信息被用于虚拟场景渲染,来达到提高结果质量的目的。由于高精度的HDR环境光图