论文部分内容阅读
该文介绍了数据挖掘、半结构化数据、XML的相关概念和研究现状.给出了一种基于XML研究一般半结构化数据的方法.以标记有序树为半结构化数据的数据模型,从基于最右扩展枚举技术的半结构化数据最大模式挖掘方法研究、半结构化数据模式的增量挖掘方法研究和基于分组计算的半结构化数据频繁模式挖掘方法研究三方面介绍了作者的一些研究成果.该文的主要贡献和创新特色如下:1.为了利用XML对一般半结构化数据进行研究,提出了一种基于XML存储半结构化数据的方法,设计并实现了相应存储与解析算法.OEM模型是常用的半结构化数据表示模型,其外存存储通常依赖于某种难以解析和处理的自定义格式.XML在数据描述和数据交换等领域有着广泛的应用.鉴于OEM模型是一种图状模型,而通常的XML数据模型是树状模型,为此需解决图状模型数据映射为树状模型数据这一关键问题,利用XML元素和属性的语义信息可从语义级别解决该问题.2.针对已有挖掘算法通常挖掘所有频繁模式,而其中很多频繁模式为其它模式的子模式问题,该文设计实现了一种最大模式挖掘算法.该算法采用最右扩展枚举方法无重复枚举所有候选模式,利用频繁模式扩展森林实现高效剪枝扩展和挖掘频繁叶模式,通过计算频繁叶模式间的包含关系挖掘树状最大频繁模式.试验结果表明该算法具有良好性能.3.针对已有半结构化数据模式挖掘算法难以对挖掘结果进行增量式更新问题,该文设计实现了一种增量式模式挖掘算法.该算法采用最右扩展枚举方法无重复枚举所有候选模式,利用挖掘过程中形成的频繁模式扩展森林实现高效剪枝,并采用基于Hash计算树比较技术以提高模式树集合交集运算效率.为评价该方法的性能,针对不同参数条件下的数据进行了比较试验,试验结果表明该算法效率相对非增量模式挖掘算法有明显提高.4.针对已有模式挖掘算法难以处理规模较大的半结构化数据问题,该文设计实现了基于分组计算的频繁模式挖掘算法.为了解决大数据量条件下的模式挖掘问题,该算法采用了分组挖掘方法,并利用单组挖掘过程中形成的频繁模式扩展森林实现高效剪枝和模式支持计数的增量计算.该算法还采用了最右扩展枚举方法无重复枚举所有候选模式以提高效率.试验结果表明该算怯在数据量较大条件下具有良好的性能.