论文部分内容阅读
政府、金融、医疗、保险等各行业间的数据共享和开放越来越频繁,不同行业间交换的数据包含大量个人敏感信息和隐私。数据共享和交换在提高数据利用价值的同时,面临着敏感数据信息的泄露、数据资源的非法访问以及盗取篡改等安全隐患。因此,针对数据的结构特征及应用场景等因素,设计一个在算法及领域上通用的隐私保护系统是非常有必要的。本文以结构化数据为设计基础,分析数据属性之间的关联信息,设计多场景下的通用隐私保护方案,旨在解决数据在共享使用中的隐私保护与安全管理问题。首先,通过挖掘分析结构化数据属性间的关联关系,找到与敏感属性存在强关联性的疑似敏感属性,在一定程度上识别待保护的敏感属性;其次,根据待保护属性的数据特征及使用场景设计敏感字段的脱敏策略,并结合属性密码实现数据的安全访问控制。具体研究工作如下:(1)设计并实现了基于关联性分析的结构化数据敏感属性识别方案。根据关联规则挖掘算法的使用要求,对结构化数据的数值型及类别型数据进行预处理;在数据所有者确定的初步敏感属性基础上,通过关联规则挖掘和互信息量实现对初步敏感属性与其余属性间的关联性分析及量化,从而识别出存在强关联度的疑似敏感属性。(2)设计了一种结构化数据的通用隐私保护方案。根据待保护敏感字段的数据结构特征及应用场景等因素设计一个通用的数据默认脱敏规则集,并提供用户自定义脱敏规则功能;针对不同访问者对不同脱敏数据的访问权限问题,利用基于密文策略的属性加密方案并结合国密算法SM4设计对数据集的加密存储及细粒度的访问控制方案。解决了数据集的敏感字段脱敏及安全访问问题。(3)实现结构化数据的通用隐私保护系统。在上述的研究方案基础上,结合各种算法及技术,根据系统软件开发流程,设计并实现了结构化数据的通用隐私保护系统,并对系统进行测试分析,结果表明该系统能够较好的满足设计需求,能够在算法及应用场景上实现通用性。