基于效用的序列模式挖掘及隐藏方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yangqiding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是数据挖掘中一个经典的研究话题。但是在序列模式挖掘中,用于衡量事物重要程度的支持度有时并不能反映出用户对某一知识的感兴趣程度。例如支持度并不能反映出网页浏览时长,商品利润等这些决策者感兴趣的信息。为了解决这一问题,研究人员在序列模式挖掘的基础上使用效用来衡量模式的重要程度,并由此提出了基于效用的序列模式挖掘,即从数据库中找到所有指定阈值下具有高效用的序列模式。虽然基于效用的序列模式挖掘方法可以找到具有高价值的知识,但是在一定程度上也会带来信息泄露的隐患。针对这一问题,研究人员提出了隐藏方法来避免或减小这一问题造成的危害。与挖掘方法相反,隐藏方法通过对指定数据库进行修改,进而达到隐藏指定阈值下的高效用序列的目的。本文分别从挖掘和隐藏两个角度出发,对现有算法进行了相应的改进。在很多场景中,决策者往往偏向于找出具有高效用值的模式。为此,本文提出利用项与项之间的层次关系来找出具有更高效用值的模式,即层次高效用序列模式挖掘。为了找出这些模式,本文提出了MHUH(Mining high utility hierarchical sequential patterns)算法。引入层次关系虽然可以带来效用值的提升,但是也导致了搜索空间过大的问题。为了解决这一问题,本文分别提出了基于TSWU剪枝策略和PBS剪枝策略来减小搜索空间。实验结果表明,与未考虑层次关系的挖掘算法相比,MHUH能够找出具有更高效用值的序列。为了隐藏某一指定阈值下的高效用序列,往往需要先挖掘这些序列,然后调用效用修改模块对数据库进行修改。然而,找出这些高效用的序列往往是极为耗时的;而效用修改模块的优劣也取决于采取的修改策略。为了提升隐藏算法的性能,本文分别从挖掘效率和修改策略进行改进。一方面,为了加快挖掘的速度,本文提出了高效用序列模式挖掘算法HUS-UT(High utility sequential pattern-utility table)。HUS-UT的主要改进为:分别使用了Utility-Table数据结构和基于TRSU的剪枝策略来加快效用计算过程和减小搜索空间。另一方面,本文从修改策略出发,提出了一种快速修改策略。基于这些改进,本文提出了FH-HUSP(Fast hiding high utility sequential patterns)算法。实验结果表明,所提出的FH-HUSP算法可以快速地完成隐藏的任务,并且对数据库的修改程度较小。
其他文献
科学技术的迅猛发展推动了生物医学研究领域的极大进步,生物医学数据的爆发带来了一场数据革命,多年来积累了大量不同类型的癌症数据。癌症在分子层面上的定义一直是生物信息
李克强总理在政府工作报告中提出要发展“互联网+”行动计划以来,“互联网+”正在造就无所不在的创新来改变我们的生产、生活方式,而公益众筹正是互联网时代下公益组织创新发
植物中PPR(pentatricopeptide repeats)基因家族是最大的基因家族之一,PPR基因属于细胞核基因,编码的蛋白即PPR蛋白。本实验室前期精细定位了水稻的CISC(cold-induced seedli
手征对称性在自然界中普遍存在。作为一个由质子和中子组成的有限量子多体系统,原子核也会存在手性。1997年,Frauendorf和孟杰预言了三轴形变的原子核中存在手征对称性,引起
药品对人体具有重要的保障作用。我国对药品的监管有着悠久的历史,在先秦时期便记载着“医师,掌医药之事务”①。新中国成立以来,随着社会经济的发展、科学技术的进步以及人
绘画作为艺术的一种,是一门重要的人文学科,本文从“具象表现绘画”这一种风格理念出发,通过对“具象表现绘画”艺术家及其作品特征梳理和分析,对艺术家的审美取向进行研究。
本文详细给出了蓝牙产品型号核准自动测试系统功率测试不确定度的分析和计算方法。作者在文中用到的数学建模和数学处理方法能准确、全面、条理地找出影响不确定度的各个因素
行政特许因其所涉及行业的特殊性而成为了行政许可的一项特殊制度。我国于1984年确立了第一个特许经营项目即深圳沙角B电厂项目,自此之后供热、供水、垃圾处理、城市交通等行
本文作者介绍了40Hz-26GHz电磁环境自动监测系统的组成,简要说明其硬件部分,并重点阐述其软件控制部分。
泛在的网络环境中充斥着大量的高维数据,如音频、视频、图片等。传统的线性搜索和树形搜索方法已经不能满足高维数据的快速相似性搜索的需求。近年来提出的基于哈希技术的相