高维数据的非显式隐私维度识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chenxiaoyi1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的发布者往往拥有数据但不具备数据挖掘的能力。数据的分析者往往拥有数据挖掘的技术但苦于缺少数据。一些数据发布者担心发布没有采取任何保护措施的数据可能会导致隐私信息泄露。而采取了隐私保护的数据又可能对后期的数据挖掘过程产生不利的影响。为了解决这个问题,学者们提出了一些隐私保护方法,包括k-anonymity、l-diversity、t-closeness等等。这些隐私保护方法在一定程度上对数据的隐私性取得了很好的保护效果,然而这些传统的隐私保护方法都是基于预先指定的非显式隐私维度的隐私保护方法,并没有研究如何自动地选择非显式隐私维度。当数据的维度数量变得很大的时候,通过人工的分析并指定对哪些属性做保护是不现实的。这就迫切地需要一种自适应地识别非显式隐私维度的方法。非显式隐私维度往往在概率分布上与敏感属性具有一定的相似性。而在进行非显式隐私维度查找方面往往会遇到组合爆炸(Combinatorial Explosion)问题。为了在查找过程中对查找空间进行约减,本文在概率分布相似性基础上提出了两个假设前提,并对其等价性进行了证明。基于该假设,本文提出了一种称为IPFS(Implicit Privacy Feature Set)的算法,去发现所有可能导致属性泄露(Attribute Disclosure)的非显式隐私维度组合。这种维度组合被称为完备非显式隐私维度集合;此外,本文又提出了一种称为KIPFS(Key Implicit Privacy Feature Set)的算法,在非显式隐私维度组合的集合中识别关键的非显式隐私维度,而这些关键的非显式隐私维度的集合就是本文选择出来的将要去做隐私保护的维度集合。实验结果表明在该方法选择出来的维度上做隐私保护要比在预先设定的维度上能达到更好的隐私保护效果,而且最小化了隐私保护过程对数据分布的影响,从而在保护隐私的前提下保证了后期数据挖掘的质量。
其他文献
随着网络的飞速发展,可扩展标记语言(eXtensible Markup Language,XML)以其自身的优点,迅速成为数据表示和数据交换的标准并得到广泛的应用。目前,如何利用使用广泛、数据处
4R-树索引是当前较为实用的双时态索引技术,它由R1、R2、R3和R4四棵相互独立的R-树构成。4R-树索引能够有效地处理时间变元Now和UC,且可在任何支持R-树的数据库管理系统上使用
入侵检测是用来检测和识别对计算机系统和网络系统,或者更广泛意义上的信息系统的非法攻击,或者违反安全策略事件的过程。它从计算机系统或网络环境中采集数据,分析数据,发现可疑
通过建设综合决策支持系统对社会保险管理信息系统产生的大量数据资产进行管理和智能分析,向业务决策人员提供基于知识的决策支持,已成为我国社会险信息化建设进一步发展的重要
加入WTO后,我国汽车业面临的不仅是国外汽车产品带来的冲击,更严峻的是汽车服务市场的竞争,而配件供应在售后服务中的位置举足轻重,特别是售后服务配件的库存既占用了企业资
随着机构改革的深化和企业宏观管理职能的加强,原有的管理办公模式已不能适应日益增长的事务处理、信息共享等方面的要求。为了提高管理工作效率,完善管理模式,必须充分利用
软件分类有利于快速地对软件进行分析和评估,更好地指导软件开发过程中的进程计划、人员组织和资源分配等工作。现有的软件分类方法仅根据软件的外部属性对软件进行分类,不能
随着互联网的迅速普及,网络内容“垃圾”已经开始侵入我们的生活。为了防止和控制非法,有害信息进行传播,对网络上传播的信息进行内容过滤已成为目前网络安全研究的重点问题
面对当前国内企业集团的下属企业众多,组织层次复杂,地域分布广泛,管理链条过长的现状,财务预算管理软件从设计上就要满足时间与空间一体化、财务与业务协同一体化的要求。为适应
近年来,国内外微博应用普及推广极快,使得微博成为一个可以让网民自主且相对自由发言评论的虚拟场所。并且,关于微博带来的独特的社交效应、博主行为模式、基于兴趣的推荐等问题