论文部分内容阅读
互联网和物联网的快速发展开启了信息时代的新纪元,数据呈现数量庞大、类型繁多、增速快、价值密度低和真实性等特性。机器学习作为实现人工智能的途径,重点研究如何从海量数据中获取隐藏的、有效的、可理解的知识,建立数据驱动型的推理与决策模型,实现“取之于数据,用之于数据”的目标。然而,传统的机器学习算法通常包含计算密集型的学习过程,对于资源受限的终端用户来说存在应用局限性。此外,训练数据量的匮乏直接导致机器学习模型过拟合或精度低。因此,基于云计算的机器学习技术应运而生,并得到了学术界、产业界和政府的广泛关注。云计算是分布式计算、效用计算、并行计算和虚拟化等多种技术的融合演进和跃升,用户能够以按需付费的方式享受云平台上无尽的存储和计算资源。因而,用户在云服务器的协助下进行模型训练与优化,不仅极大地降低了用户端的计算开销和维护成本,而且可以实现分布式数据集的有效利用。然而,由于用户数据中通常包含敏感信息且云服务器不完全可信,因此,基于云计算的机器学习技术不可避免地面临一些安全问题。首先,数据外包使得用户失去了对其物理管控,如何保证训练过程中训练集数据隐私性和计算结果的可验证性,是面临的安全挑战之一。其次,训练结果得到的预测模型可认为是用户的知识产权,如何实现预测阶段中模型参数的隐私保护,也是我们面临的问题之一。再次,预测样例中通常包含个人隐私信息,如何保证预测样例及结果的隐私性,也是我们需要应对的挑战之一。最后,联邦式机器学习是由多用户参与的一种高效的协作式学习模式,群组用户动态更新情况经常发生,如何实现动态场景下群组用户训练集数据的隐私保护,也是我们需要解决的问题之一。近年来,计多专家和学者对机器学习算法中的可验证计算技术开展了大量研究。然而,目前的方案仍存在以下安全隐私问题:首先,矩阵乘法是机器学习算法的基础运算,现有的大规模矩阵外包乘法无法同时实现用户数据的隐私保护和计算结果的公开可验证性;其次,在单层感知机模型训练和预测方面,现有的方案无法同时满足数据全流程的隐私保护;最后,现有的方案无法支持群组用户动态更新的联邦式机器学习。为了解决上述问题,本文围绕机器学习中可验证计算的隐私保护技术开展一系列研究,取得了以下几个方面的成果:1.我们设计了一个面向群组用户的可公开验证矩阵乘法外包算法,其中一个矩阵是公开且固定的,另一个矩阵由群组用户提供。我们采用隐私保护的矩阵转换技术对群组用户的输入矩阵进行盲化,解决了用户数据隐私泄露的问题。其次,我们利用矩阵摘要技术将二维矩阵转化成一维向量,降低了第一阶段密钥生成和第三阶段矩阵相乘的计算开销,极大地提升了方案效率。此外,该方案采用分摊模型,支持矩阵批处理计算,因此我们的方案具有高效性。(第3章,发表在 Information Sciences,479,664-678,2019)2.我们设计了一个支持批量训练的隐私保护单层感知机训练方案,解决了模型训练过程中训练集数据隐私泄露的问题。同时,我们引入了一种确定性验证方案,可以以确定性概率检测出服务器返回的错误结果。此外,基于迹函数的安全两方安全计算技术,我们设计了一种轻量级的隐私保护模型预测方案。在预测阶段中,可以实现对预测模型参数、预测样例及预测结果的隐私性保护。(第 4 章,发表在 Soft Computing,22(23),7719-7732,2018)3.我们设计了两个隐私保护的异步联邦式深度学习方案DeepPAR和DeepDPA。DeepPAR中群组参与者分别用各自的公钥对梯度参数进行加密,利用代理重加密技术在服务器端进行模型整合与更新。该方案可以在保护群组用户数据隐私的同时,天然地具备群组用户动态更新的前向与后向隐私性。此外,DeepDPA采用动态群组共享密钥管理技术,用户动态撤销时密钥同时进行更新,解决了动态场景下群组用户隐私信息和模型参数泄露的问题,安全性分析表明该方案具有后向隐私性。(第 5 章,发表在 IEEE Transactions on Industrial Informatics,DOI:10.1109/TⅡ.2019.2941244)4.我们设计了一个隐私保护的可验证在线众包方案,实现了群组参与者输入数据的隐私性保护。在不同的分类任务中,该方案能够以最小计算开销实现群组用户的动态更新操作(用户加入与撤销)。此外,我们设计了概率型验证机制,可以对众包个体参与者返回的计算结果进行验证。在结果整合阶段,该方案无需对返回的密文进行复杂的解密操作,因此我们的方案具有高效性。(第6章,已投稿 IEEE Transactions on Dependable and Secure Computing)