支持隐私保护的数据挖掘方法研究及实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:jj806778025
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据与人工智能技术的广泛应用,数据背后蕴藏的巨大价值得以挖掘,同时带来也带来了不容小觑的隐私泄漏问题。如何在保障数据安全的前提下,实现大数据开放共享、高效挖掘日益成为重要的研究领域。为了应对数据挖掘中存在的隐私泄露风险,本文通过对大数据隐私保护技术进行深入研究,设计并实现了两种针对非结构化数据的隐私保护数据挖掘模型,能够有效地实现数据安全性与可用性之间的平衡。论文的主要创新性工作如下:(1)针对深度学习模型中存在的隐私泄漏问题及隐私保护的不透明性,本文将差分隐私与生成模型(GAN)相结合,提出了一种支持自适应差分隐私的生成对抗网络模型(Adp-GAN)。Adp-GAN通过自适应差分隐私实现机制,将拉普拉斯噪声合理地分配到判别器的仿射变换层的输入特征以及输出层的损失函数的多项式近似系数中,在实现差分隐私保护的同时,有效地减少了训练过程中隐私预算的消耗。通过在标准数据集MNIST和CelebA上的实验,验证了Adp-GAN可以生成更高质量的数据,并且用成员推理攻击实验证明了 Adp-GAN具有提供更好的抗攻击能力。(2)为解决传统敏感数据识别方法与标注数据强耦合且精度低的问题,本文构建了支持自适应数据脱敏的命名实体识别模型(Adm-NER)。Adm-NER在Bi-LSTM-CRF模型的基础上将对抗式迁移学习应用于数据脱敏领域,能够对缺少样本领域的敏感数据进行有效识别,再结合自注意力机制辅助于词边界定位,以达到更高的识别精度。通过五组对比实验的结果显示,Adm-NER显著地提升了对敏感数据的识别准确率。此外,从新闻领域到医疗领域的迁移学习实验证明,Adm-NER可以自适应地借助新闻领域的大规模标注样本学习共同特征,以实现对医疗领域的敏感数据精准定位识别,便于后续数据脱敏处理,为大数据脱敏系统的智能化设计提供了一种新思路。
其他文献
我国当下正处于从“引进来”的经济发展模式逐步转向实现中国企业“走出去”的经济转变过程中。国内大量“走出去”企业发展势头迅猛,在一带一路等政策的支持下在全世界各地进行了投资或生产活动,然而这样的发展同时也带来了由于国家及地区之间税负水平不同造成的税基侵蚀与利润转移问题。为了有效防止此等税基侵蚀和利润转移行为,促进跨国集团公司的健康有序发展,使其更加规范化,亟待进一步研究受控外国子公司相关问题。可以说
近年来,网络的快速发展,我国舆论环境、传播媒介等都发生翻天覆地的变化,网络舆情事件的引导处置也逐渐上升到更加重要的位置,成为社会公共管理领域一个重要的研究课题。网络
在国家大力构建和优化法治营商环境的大背景下,个体经营者的生存发展法治环境得到了一定的优化。但是我们不得不承认我国个体经营者的生产发展法治环境相较于我国其他市场主体和国外类似于我国个体经营者的市场主体的生存发展法治环境还是比较不理想的。本文以融资权利与经营负担为分析线索,借助实地调研法和比较分析法等研究方法,结合全国性法治环境评价指标体系进行论证得出我国个体经营者生存发展法治环境不良的结论。然后从融
图像拼接技术已被广泛地应用于虚拟现实、视频监控等领域。但是针对图像拼接所造成的错位图像质量评价方法研究,并没有跟上图像拼接技术发展的脚步,对图像拼接工程的自动化评估带来了一定的阻碍。图像拼接的质量评价与传统的图像质量评价有着一定的差别,传统的图像评价算法所研究的噪声和失真大多数是全局均匀分布的,而拼接图像的噪声和失真是从局部进行扩散的,因而采用传统的质量评价算法就会导致一定的误差。本文针对拼接图像
高海拔宇宙线观测站(Large High Altitude Air Shower Observatory;LHAASO)是以探索高能宇宙线起源、精确测量宇宙线分成分能谱、探索新物理等为科学目标而建设的一个地面探测实验项目。LHAASO将利用其复合探测器阵列和高灵敏度的优势,对高能宇宙线展开深入的观测和研究。其中广角切伦科夫望远镜阵列(Wide Field of View Cherenkov Tel
目前,癌症光动力治疗凭借其微创、重复给药和低毒副作用等优点引起研究者的广泛关注。光动力治疗利用光敏剂在光照条件下将能量传递给分子氧而产生活性氧(主要为单线态氧),进而导致肿瘤细胞凋亡。但肿瘤组织缺氧以及光敏药物肿瘤富集效果差等问题会限制单线态氧的产率,从而影响光动力治疗效果。为了实时监测光动力治疗进程,及时反馈单线态氧产生状况,本文设计了掺杂1,3-二苯基异苯并呋喃(DPBF)的单线态氧纳米探针,
随着网络流量数据量和种类的不断增加,传统的网络流量分类方法已经难以满足需求,基于机器学习的网络流量分类方法成为了网络流量分类的研究热点。但是机器学习模型的开发是个循环的过程,需要多次优化。在实际应用中,针对基于机器学习的网络流量分类模型的开发涉及多方面的工作,传统的开发手段就显得效率较低。现阶段国内外公开的机器学习管理平台有很多,但是还没有发现专门针对网络流量分类的机器学习管理平台。为此,本文设计
随着云计算技术的日益普及,以云存储为代表的数据外包服务正凭借其价格低廉、管理简化等特点而愈加的受到人们的欢迎。然而,数据外包服务也同时产生了许多问题与矛盾。一方面
习主席在党史学习教育动员大会上强调,要进一步感悟思想伟力,增强用党的创新理论武装全党的政治自觉。从基层实际看,把理论武装当口号喊、装点门面做做样子、不真学真用的问题仍然突出,需要各级紧贴青年官兵的思想实际和认知特点改进学习、深化武装,着力破除与真学真用不相适应的突出问题,不断推进党的创新理论武装在基层走深走实。
自2011年至2016年,我国进出口贸易总额增速持续下滑,贸易形势严峻。而“一带一路”倡议、人民币入国际货币篮子、外商投资法等一系列政策出台释放“制度红利”;2017年和2018年进出口总额增速大幅回升,贸易出现复苏迹象。如何提升对外贸易质量、推动贸易发展方式转型升级,以谋求我国在国际分工体系中的新地位,成为各界关注的重点课题。因此,本文以“一带一路”沿线41个国家(地区)为样本,探究国际分工视域