基于标记有序树模型的半结构化数据中模式发现方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dragongreen2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文介绍了数据挖掘、半结构化数据、XML的相关概念和研究现状.给出了一种基于XML研究一般半结构化数据的方法.以标记有序树为半结构化数据的数据模型,从基于最右扩展枚举技术的半结构化数据最大模式挖掘方法研究、半结构化数据模式的增量挖掘方法研究和基于分组计算的半结构化数据频繁模式挖掘方法研究三方面介绍了作者的一些研究成果.该文的主要贡献和创新特色如下:1.为了利用XML对一般半结构化数据进行研究,提出了一种基于XML存储半结构化数据的方法,设计并实现了相应存储与解析算法.OEM模型是常用的半结构化数据表示模型,其外存存储通常依赖于某种难以解析和处理的自定义格式.XML在数据描述和数据交换等领域有着广泛的应用.鉴于OEM模型是一种图状模型,而通常的XML数据模型是树状模型,为此需解决图状模型数据映射为树状模型数据这一关键问题,利用XML元素和属性的语义信息可从语义级别解决该问题.2.针对已有挖掘算法通常挖掘所有频繁模式,而其中很多频繁模式为其它模式的子模式问题,该文设计实现了一种最大模式挖掘算法.该算法采用最右扩展枚举方法无重复枚举所有候选模式,利用频繁模式扩展森林实现高效剪枝扩展和挖掘频繁叶模式,通过计算频繁叶模式间的包含关系挖掘树状最大频繁模式.试验结果表明该算法具有良好性能.3.针对已有半结构化数据模式挖掘算法难以对挖掘结果进行增量式更新问题,该文设计实现了一种增量式模式挖掘算法.该算法采用最右扩展枚举方法无重复枚举所有候选模式,利用挖掘过程中形成的频繁模式扩展森林实现高效剪枝,并采用基于Hash计算树比较技术以提高模式树集合交集运算效率.为评价该方法的性能,针对不同参数条件下的数据进行了比较试验,试验结果表明该算法效率相对非增量模式挖掘算法有明显提高.4.针对已有模式挖掘算法难以处理规模较大的半结构化数据问题,该文设计实现了基于分组计算的频繁模式挖掘算法.为了解决大数据量条件下的模式挖掘问题,该算法采用了分组挖掘方法,并利用单组挖掘过程中形成的频繁模式扩展森林实现高效剪枝和模式支持计数的增量计算.该算法还采用了最右扩展枚举方法无重复枚举所有候选模式以提高效率.试验结果表明该算怯在数据量较大条件下具有良好的性能.
其他文献
相似时序检索技术在数据挖掘、天气预报、股票走势的分析和预测等方面有着广阔的应用前景.常见的相似时序检索技术包括:时域法、频域法、段化法和波形描述法等.扩展时序数据
地理信息系统(GIS)的广泛应用巨大地推动着社会经济的发展。但是由于对于大多数用户来说并不需要功能复杂、难于掌握的工具型GIS,而是满足一定工作需要的应用型GIS,所以GIS的二
统计机器翻译经历了从规则到统计的变革,翻译质量不断提升。最近几年,伴随着神经网络机器翻译的出现,翻译性能有了新的突破。神经网络翻译模型采用了“端到端”的翻译模式,通过一
近几年,Internet已经深入企业,企业已经不仅仅是从Internet上获取信息,企业的许多业务也延伸其上,成为企业商业活动、企业管理活动中必不可少的组成部分,是企业建设中的一个
随着互联网、物联网等行业数据规模的爆发式增长,企业在数据的处理和分析上正面临着全新的挑战。面对海量数据,传统的关系型数据库在数据的吞吐能力、分析效率和系统的可扩展性
随着计算机网络技术的发展及分布式计算的需求逐步升高,分布式应用蓬勃发展,逐步渗透到软件应用的各个领域。分布式构件技术是分布式应用开发的核心技术,目前主流的分布式构件技
随着众多技术的和人为的因素使得软件系统的开发环境日趋复杂化而难以管理,人们逐渐注意到了CASE技术在软件系统开发工程中的重要作用,而作为CASE技术的一项重要内容,软件配置的
随着七号信令系统应用规模的不断扩大,七号信令集中监测系统日益成为信令网维护的重要手段。在七号信令集中监测系统中,呼叫跟踪是其最重要的功能之一。呼叫跟踪的主要目的是为
当前,随着“科技强警”战略的实施和“金盾工程”的正式启动,计算机应用技术在各级公安机关迅速普及推广,警务督察工作的任务是对公安机关及其民警履行职责、行使职权和遵守纪律
该文的研究主要针对深圳市海博科技有限公司自主研制开发的新一代聚焦式放射治疗设备——超伽治疗系统(SGS:Super Gamma System).研究的目标是在现有硬件和软件的基础上,探讨