多数据源下机器学习的隐私保护研究

2020-07-18张铭凯范宇豪夏仕冰

网络空间安全 2020年4期

张铭凯范宇豪夏仕冰

摘要：在多数据源的情况下，隐私保护机器学习是一个具有重要现实意义的研究课题，直接影响着人工智能在现实社会中的发展和推广。目前，已有许多致力于解决机器学习算法中隐私问题的方案，文章阐述并分析了四种常见的隐私保护技术，它们包括同态加密、秘密共享、乱码电路和差分隐私。介绍了近年来一种流行的联合学习解决方案框架—联邦学习，并对其存在的不足进行了讨论。基于对现有技术和方案的分析，文章提出了一种适用于多数据源场景的隐私保护方案，方案具有良好的安全性、健壮性和可校验性三个特点。

关键词：隐私保护;多数据源;机器学习;同态加密;联邦学习

中图分类号： TP391 文献标识码：A

Abstract： In the case of multiple data sources， privacy protection machine learning is a research topic of great practical significance， which directly affects the development and promotion of artificial intelligence in real society. At present， there are many solutions dedicated to solving privacy problems in machine learning algorithms. The article expounds and analyzes four common privacy protection technologies， including homomorphic encryption， secret sharing， garbled circuits， and differential privacy. Introduced a popular joint learning solution framework in recent years-federal learning， and discussed its shortcomings. Based on the analysis of existing technologies and schemes， the article proposes a privacy protection scheme suitable for multiple data source scenarios. The scheme has three characteristics of good security， robustness and verifiability.

Key words： privacy protection; multiple data sources; machine learning; homomorphic encryption; the federal study

1 引言

近年來，机器学习算法得到越来越多的关注和发展，其出色的数据挖掘技术在疾病检测、经济预测、网络优化等广泛领域中得到应用并迅速获得了普及。

在实际训练中，机器学习算法需要尽可能多的样本数据，但是单数据源所能提供的数据量有限，算法所需的数据大多来自多个数据源，例如不同的人、公司、组织或国家等。由于每个参与者对所得到的学习模型都做出了贡献，在未经其他参与者授权之前，通常该模型应只在参与者之间共享，而不允许任何单个参与者拥有模型的全部所有权。这种限制可以有效防止任何未经授权的个人或团体利用或出售有价值的模型。

基于上述原因，如何保护每个参与者的隐私问题有着极其重要的现实意义。数据提供者不希望将其私人数据透露给其他人，并且经过多数据源的数据训练过的模型也不应发布给任何单个参与者，因此我们需要使用基于多数据源的隐私保护方法。

2 隐私技术的发展概况

现有的解决机器学习算法中隐私问题的方案，主要基于四种类型的隐私保护技术：（1）同态加密;（2）秘密共享;（3）乱码电路;（4）差分隐私。本节主要讨论它们的应用和不足。

2.1 同态加密

同态加密技术是将数据转换成密文，并实现直接对密文进行与明文相同的加法和乘法等基本计算处理。它已经在安全计算的实践中得到了广泛的应用[1]。同态加密虽然强大，但其低效的计算效率限制了其发展，特别是支持乘法的全同态加密。

通过使用全同态加密，文献[2]的作者构建了一种不需要高效计算效率的基于云的安全神经网络预测服务。另外，Yuan等人[3]基于一个拥有可信加密服务提供者的模型，为Back-Propagation Neural （BPN）神经网络的学习训练过程提供了一种有效的隐私保护解决方案。同样的，文献[4]的作者提出了在云计算中保护隐私的外包分类框架，当加密服务提供者没有泄密时，就可以有效保护隐私。显然，加密服务提供者的存在降低了这些解决方案的安全性。

为了避免全同态加密造成的低效，文献[5，6]的作者只使用加同态加密来完成安全加法，而安全乘法则依赖于普通的两方秘密共享方案。然而其仍然存在漏洞，如果任何两个参与者勾结，被保护的隐私数据将被泄露。

总之，基于同态加密的解决方案通常需要一个可信的加密服务提供者，或者需要依赖于其他隐私技术。同时受到同态加密发展的限制，它通常仍然需要许多计算资源，导致其计算效率并不很令人满意。

2.2 秘密共享

秘密共享技术允许用户将一个秘密 s 分为 n 份子秘密，然后把它们分给n个用户。这样使得当k≤n时，任意k份子秘密都可以用来重构秘密s，若少于k份子秘密则不能泄露出任何关于秘密s的信息。根据是否具有阈值特性，我们将秘密共享技术主要分为两类：当k=n时是普通秘密共享;当k

基于普通秘密共享技术，Bogdanov等人 [7]提出了一种名为Share mind的高效 3PC 模型用于隐私保护计算，并显著提高了3PC模型的计算速度[8]。 2017年，Mohassel等人[9]使用两个非勾结服务器（2PC模型），提出了新的、高效的机器学习隐私保护协议。该协议主要应用于线性回归、逻辑回归和使用随机梯度下降法训练的神经网络。

显然，这些安全措施不足以抵御强大的对手。虽然[10～12]的作者通过能够抵抗一个参与者泄密的阈值秘密共享方案，将阈值特征引入到 3PC 模型中，但是在实际情况中，该方案并不能很容易地扩展到多 PC 模型，且阈值的特性也不能很好地继承。因此，通用性是此类基于阈值秘密共享的现有解决方案的挑战。

2.3 乱码电路

乱码电路最初是由Yao[13]引入，这种技术在解决基于数字电路的安全多方计算、对称加密和不经意传输问题方面非常成功。但由于乱码电路通常效率不够，一些稍微复杂的函数在转换成数字电路时仍然包含大量的逻辑门，这将导致大量的解密操作，使计算效率低下。

由于低效率和扩展困难，乱码电路的使用率并不高。文献[14]的作者将解密过程嵌入到乱码电路中，以实现密文的安全计算。此外，Mohassel等人[15]通过使用乱码电路来解决安全比较问题。乱码电路方案的扩展性弱，并且容易产生很高的计算复杂度。因此，乱码电路不是实现机器学习隐私保护算法的主要方案。

2.4 差分隐私

差分隐私是通过在原始数据集上进行额外的处理来实现机器学习隐私保护[16～18]。它通过降低数据在一次单独使用中的价值来保护数据的隐私。虽然这种方法可以有效保护隐私数据，但由此带来的数据使用价值的降低会造成基于小数据集的机器学习训练准确度的下降。因此差分隐私只适用于有大量数据集合的训练过程。

3 联邦学习框架

最近，McMahan等人[19]提出了一种用于在多个数据源的情况下保护机器学习的数据隐私的新的解决方案框架，称为联邦学习。之后，Yang等人[20]对联邦学习进行了完整详细的阐述。基于数据分布的类型，联邦学习具有两种不同的结构。

水平联邦学习的典型结构允许服务器聚合每个数据提供者在本地计算的梯度，之后所有数据提供者使用服务器返回的聚合结果更新系统模型。显然，任何数据提供者都有可能泄露整个模型。

垂直联邦学习的结构则假定有一个合作者是诚实的，并且不与其他任何数据提供者勾结。然而，这种基于假设的方法的安全性同样存在限制。

4 线性回归算法的隐私保护研究

Mohassel等人[21]提出了一种基于三方服务器的隐私保护方案。方案具有良好的健壮性，它能够容忍参与计算的一个服务器下线或拒绝服务，方案的不足之处在于无法验证参与者给出数据的正确性。本文基于秘密共享技术构建了一种新的基于三方的安全计算方案并应用于构造隐私保护的线性回归算法。新方案同样具有良好的健壯性并且能够在计算过程中验证计算结果的正确性。

4.1 安全计算方案

新的安全计算方案主要分为三个部分：秘密分发协议、安全计算协议、结果校验协议。

4.1.1秘密分发协议

安全乘法协议借助Mohassel等人[9]提出的安全两方乘法协议实现。任意两个服务器均进行安全两方乘法计算，最终秘密m·s同样分为三组秘密分量分别存储在三个服务器。具体算法不在本文累述。

4.1.3 结果校验协议

结果校验协议主要负责对计算过程中的计算结果进行校验，防止秘密分量间的错误计算或单个服务器的恶意数据。假设需要校验的结果数据为秘密，校验过程如下：

1）服务器A计算。服务器B任选一个随机数R计算，将K发送给服务器C;

2）服务器C利用K计算，将L发送给服务器A;

3）服务器A计算，将M发送给服务器B;

4）服务器B根据M与R判断计算结果是否正常。当M与R相等时，计算结果正常。当M与R不相等时，计算结果异常。

4.2 隐私保护的线性回归算法

线性回归算法在日常生活中应用广泛，它通常应用于连续型数据的数值预测，例如房价预测、疾病诊断等领域。本文基于前述的安全计算方案构造了隐私保护的线性回归算法，算法具有安全性和健壮性的特点，同时能够对中间结果进行结果校验，验证计算过程的正确性。线性回归算法分为训练阶段和预测阶段，本文针对这两个阶段分别构造了隐私保护协议。

4.2.1训练阶段

1）服务器A、B、C分别初始化线性回归模型参数W为0。利用秘密分发协议将秘密0生成三组秘密分量并发送给每个服务器。

2）数据拥有者利用秘密分发协议将自己的隐私数据生成三组秘密分量并发送给每个服务器。

3）服务器A、B、C利用安全计算协议更新，其中代表学习速率。

4）重复执行步骤2）和步骤3），当两次更新前后模型参数W的变化量小于一定值后停止更新。参数W即为训练处出的线形回归模型。

4.2.2 预测阶段

1）需求预测服务的用户利用秘密分发协议将自己的隐私数据X生成三组秘密分量并发送给每个服务器。

2）服务器A、B、C利用安全计算协议计算。最终预测结果将分散存储在三个服务器中，任选两个服务器将秘密分量发送给用户进行预测结果的重构。

比较前述的多种隐私保护技术，秘密共享技术天然地适合多数据源下的机器学习隐私保护。本节利用秘密共享技术和三个服务器构建了新的具有安全性、健壮性和可校验性的安全计算协议，并以此为基础构建了隐私保护的线性回归算法。新方案相较于现有方案实现了对中间结果的校验，能够防止计算过程中的异常错误。基于上述内容可得，在多数据源场景下，秘密共享技术拥有很大的潜力和较好的发展前景。

5 结束语

基于多数据源的机器学习弥补了单数据源下训练数据的数量缺乏和多样性不足的缺陷，具有广泛的应用前景和现实意义。而多数据源下机器学习的隐私保护技术直接影响着这种机器学习方案在现实社会中的发展和推广，具有十分重要的意义。

参考文献

[1] M. Naehrig， K. Lauter， and V. Vaikuntanathan. Can homomorphic en cryption be practical？ In Proceedings of the 3rd ACM Workshop on Cloud Computing Security Workshop， CCSW '11， pages 113–124， New York， NY， USA， 2011. ACM.

[2] P. Xie， M. Bilenko， T. Finley， R. Gilad-Bachrach， K. E. Lauter， and M. Naehrig. Crypto-nets： Neural networks over encrypted data. CoRR， abs/1412.6181， 2014.

[3] J. Yuan and S. Yu. Privacy preserving back-propagation neural network learning made practical with cloud computing. IEEE Transactions on Parallel and Distributed Systems， 25（1）： 212–221， Jan 2014.

[4] P. Li， J. Li， Z. Huang， C.-Z. Gao， W.-B. Chen， and K. Chen. Privacy-preserving outsourced classi?cation in cloud computing. Cluster Computing， 21（1）： 277-286， Mar 2018.

[5] J. Vaidya， M. Kantarc?o?glu， and C. Clifton. Privacy-preserving na¨?ve bayes classi?cation. The VLDB Journal， 17（4）： 879–898， Jul 2008.

[6] S. Samet and A. Miri. Privacy-preserving back-propagation and extreme learning machine algorithms. Data Knowl. Eng.， 79-80： 40-61， Sept. 2012.

[7] D. Bogdanov， S. Laur， and J. Willemson. Sharemind： A framework for fast privacy-preserving computations. In S. Jajodia and J. Lopez， editors， Computer Security - ESORICS 2008， pages 192-206， Berlin， Heidelberg， 2008. Springer Berlin Heidelberg.

[8] D. Bogdanov， M. Niitsoo， T. Toft， and J. Willemson. High-performance secure multi-party computation for data mining applications. International Journal of Information Security， 11（6）：403-418， Nov 2012.

[9] P. Mohassel and Y. Zhang. Secureml： A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy （SP）， volume 00， pages 19-38， May 2017.

[10] T. Araki， J. Furukawa， Y. Lindell， A. Nof， and K. Ohara. High-throughput semi-honest secure three-party computation with an honest majority. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security， CCS '16， pages 805-817， New York， NY， USA， 2016. ACM.

[11] J. Furukawa， Y. Lindell， A. Nof， and O. Weinstein. High-throughput secure three-party computation for malicious adversaries and an honest majority. In J.-S. Coron and J. B. Nielsen， editors， Advances in Cryptology -EUROCRYPT 2017， pages 225-255， Cham， 2017. Springer International Publishing.

[12] P. Mohassel and P. Rindal. Aby3： A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security， CCS '18， pages 35-52， New York， NY， USA， 2018. ACM.

[13] A. C. Yao. Protocols for secure computations. In 23rd Annual Symposium on Foundations of Computer Science （sfcs 1982）， pages 160-164， Nov 1982.

[14] V. Nikolaenko， U. Weinsberg， S. Ioannidis， M. Joye， D. Boneh， and N. Taft. Privacy-preserving ridge regression on hundreds of millions of records. In 2013 IEEE Symposium on Security and Privacy， pages 334-348， May 2013.

[15] P. Mohassel and Y. Zhang. Secureml： A system for scalable privacy-preserving machine learning. In 2017 IEEE Symposium on Security and Privacy （SP）， volume 00， pages 19-38， May 2017.

[16] K. Chaudhuri and C. Monteleoni. Privacy-preserving logistic regression. In D. Koller， D. Schuurmans， Y. Bengio， and L. Bottou， editors， Advances in Neural Information Processing Systems 21， pages 289-296. Curran Associates， Inc. 2009.

[17] M. Abadi， A. Chu， I. Goodfellow， H. B. McMahan， I. Mironov， K. Talwar， and L. Zhang. Deep learning with di?erential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security， CCS '16， pages 308-318， New York， NY， USA， 2016. ACM.

[18] S. Song， K. Chaudhuri， and A. D. Sarwate. Stochastic gradient descent with di?erentially private updates. In 2013 IEEE Global Conference on Signal and Information Processing， pages 245-248， Dec 2013.

[19] McMahan H B， Moore E， Ramage D， et al. Communication-efficient learning of deep networks from decentralized data， ICAI， 2017.

[20] Q. Yang， Y. Liu， T. Chen， and Y. Tong. Federated machine learning： Concept and applications. ACM Trans. Intell. Syst. Technol， 10（2）：12：1-12：19， Jan. 2019.

[21] P. Mohassel and P. Rindal. Aby3： A mixed protocol framework for machine learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security， CCS '18， pages 35{52， New York， NY， USA， 2018. ACM.