论文部分内容阅读
序列模式挖掘是数据挖掘中一个经典的研究话题。但是在序列模式挖掘中,用于衡量事物重要程度的支持度有时并不能反映出用户对某一知识的感兴趣程度。例如支持度并不能反映出网页浏览时长,商品利润等这些决策者感兴趣的信息。为了解决这一问题,研究人员在序列模式挖掘的基础上使用效用来衡量模式的重要程度,并由此提出了基于效用的序列模式挖掘,即从数据库中找到所有指定阈值下具有高效用的序列模式。虽然基于效用的序列模式挖掘方法可以找到具有高价值的知识,但是在一定程度上也会带来信息泄露的隐患。针对这一问题,研究人员提出了隐藏方法来避免或减小这一问题造成的危害。与挖掘方法相反,隐藏方法通过对指定数据库进行修改,进而达到隐藏指定阈值下的高效用序列的目的。本文分别从挖掘和隐藏两个角度出发,对现有算法进行了相应的改进。在很多场景中,决策者往往偏向于找出具有高效用值的模式。为此,本文提出利用项与项之间的层次关系来找出具有更高效用值的模式,即层次高效用序列模式挖掘。为了找出这些模式,本文提出了MHUH(Mining high utility hierarchical sequential patterns)算法。引入层次关系虽然可以带来效用值的提升,但是也导致了搜索空间过大的问题。为了解决这一问题,本文分别提出了基于TSWU剪枝策略和PBS剪枝策略来减小搜索空间。实验结果表明,与未考虑层次关系的挖掘算法相比,MHUH能够找出具有更高效用值的序列。为了隐藏某一指定阈值下的高效用序列,往往需要先挖掘这些序列,然后调用效用修改模块对数据库进行修改。然而,找出这些高效用的序列往往是极为耗时的;而效用修改模块的优劣也取决于采取的修改策略。为了提升隐藏算法的性能,本文分别从挖掘效率和修改策略进行改进。一方面,为了加快挖掘的速度,本文提出了高效用序列模式挖掘算法HUS-UT(High utility sequential pattern-utility table)。HUS-UT的主要改进为:分别使用了Utility-Table数据结构和基于TRSU的剪枝策略来加快效用计算过程和减小搜索空间。另一方面,本文从修改策略出发,提出了一种快速修改策略。基于这些改进,本文提出了FH-HUSP(Fast hiding high utility sequential patterns)算法。实验结果表明,所提出的FH-HUSP算法可以快速地完成隐藏的任务,并且对数据库的修改程度较小。