论文部分内容阅读
随着信息时代的不断发展,挖掘数据中的有效信息变得越来越普及,从而导致挖掘信息过程中的隐私保护问题受到越来越多的关注。差分隐私作为一种新型的隐私保护模型,对隐私保护进行了严格的数学定义并提供了量化评估方法,使得在不同参数处理下的数据集提供的隐私保护程度具有可比性。因此,差分隐私理论被提出之后便迅速被业界认可,并逐渐成为隐私保护领域中的一个研究热点。目前,差分隐私在理论方面已经较为成熟,但是在实际应用中仍然有限。结构化查询语言(Structured Query Language,SQL)是现实世界中被广泛认可和普及的一种非过程化数据查询语言,具有灵活性高、功能强大的特点。SQL具有强大的灵活性的同时也增加了添加差分隐私保护的难度,导致SQL查询对差分隐私的支持度不够。为了扩展差分隐私在实际应用中的使用范围,提高SQL查询对差分隐私的支持度,本文提出一种对SQL查询添加差分隐私保护的方法。本文研究了SQL中常用聚集函数的差分隐私保护方法,并将SQL中的聚集函数分为两类。由于第一类聚集函数的函数值受数据集中的属性值大小影响,所以第一类聚集函数的全局敏感度较高,造成隐私保护后的结果可用性较差。为了提高发布结果的可用性,本文提出一种通过局部敏感度为SQL查询添加差分隐私保护的方法。针对第二类聚集函数提出一种在关系数据集下对SQL查询提供差分隐私保护的方法。该方法从关系代数的角度出发,通过关系代数限制SQL,解决了因SQL查询结构灵活所造成的问题。此外,关系数据集是一种高敏感度数据集,当更改其中一条记录时可能引起多条记录发生改变。针对这种情况,本文通过关系系数来度量数据之间相关性,在差分隐私保护过程中充分考虑相关性对隐私保护结果的影响,力求在满足差分隐私保护的前提下,提高发布结果的可用性。