论文部分内容阅读
数据的发布者往往拥有数据但不具备数据挖掘的能力。数据的分析者往往拥有数据挖掘的技术但苦于缺少数据。一些数据发布者担心发布没有采取任何保护措施的数据可能会导致隐私信息泄露。而采取了隐私保护的数据又可能对后期的数据挖掘过程产生不利的影响。为了解决这个问题,学者们提出了一些隐私保护方法,包括k-anonymity、l-diversity、t-closeness等等。这些隐私保护方法在一定程度上对数据的隐私性取得了很好的保护效果,然而这些传统的隐私保护方法都是基于预先指定的非显式隐私维度的隐私保护方法,并没有研究如何自动地选择非显式隐私维度。当数据的维度数量变得很大的时候,通过人工的分析并指定对哪些属性做保护是不现实的。这就迫切地需要一种自适应地识别非显式隐私维度的方法。非显式隐私维度往往在概率分布上与敏感属性具有一定的相似性。而在进行非显式隐私维度查找方面往往会遇到组合爆炸(Combinatorial Explosion)问题。为了在查找过程中对查找空间进行约减,本文在概率分布相似性基础上提出了两个假设前提,并对其等价性进行了证明。基于该假设,本文提出了一种称为IPFS(Implicit Privacy Feature Set)的算法,去发现所有可能导致属性泄露(Attribute Disclosure)的非显式隐私维度组合。这种维度组合被称为完备非显式隐私维度集合;此外,本文又提出了一种称为KIPFS(Key Implicit Privacy Feature Set)的算法,在非显式隐私维度组合的集合中识别关键的非显式隐私维度,而这些关键的非显式隐私维度的集合就是本文选择出来的将要去做隐私保护的维度集合。实验结果表明在该方法选择出来的维度上做隐私保护要比在预先设定的维度上能达到更好的隐私保护效果,而且最小化了隐私保护过程对数据分布的影响,从而在保护隐私的前提下保证了后期数据挖掘的质量。