APP下载

安全多方计算研究现状与发展趋势的图谱分析

2023-08-26金雪苗志宏马金强刘茜

电脑知识与技术 2023年21期
关键词:文献计量学知识图谱

金雪 苗志宏 马金强 刘茜

关键词:安全多方计算;MPC;CiteSpace;知识图谱;文献计量学

中图分类号:TP309 文献标识码:A

文章编号:1009-3044(2023)21-0001-06

0引言

随着大数据、云计算、分布式计算的快速发展,人们越来越重视数据的安全性保护。为了提高数据安全和协作计算能力,各类专家学者开始探索研究不同的技术路线,密码学作为信息安全领域的核心技术,为数据的安全性保证提供了理论基础和技术支撑。而安全多方计算作为密码学的一个重要研究方向,具有较高的理论价值和广阔的应用前景,受到各个领域的密切关注。

安全多方计算(Secure Muti-Party Computation,简称MPC,亦可简称SMC或SMPC) 在1982年首次由华裔计算机科学家、图灵奖得主姚教授提出了这个问题,即著名的百万富翁问题:两个有竞争力的富人Al?ice和Bob在街上相遇,如何比较谁更富有而不暴露自己的财富?此问题提出后,得到研究学者的广泛关注,成为现代密码学中一个非常活跃的研究领域。安全多方计算的数学描述为n 个参与者P1,P2…Pn以一种安全的方式共同计算同一个函数,这里的安全是指输出结果的正确性、输入信息和输出信息的保密性。具体来说,每个参与者P1有一个自己的保密输入信息X1,n 个参与者要共同计算一个函数f(X1,X2, … ,Xn)=(Y1,Y2, … ,Yn),一旦计算完成,每一个参与者应该能够得到自己那部分输出,而不能获取到其他参与者的输出。多方安全计算目的是建立一个安全协议,即允许多个不信任的参与者共同计算他们的隐私输入的目标函数,同时确保输出的准确性,甚至在不诚实的行为面前保护和控制他们的隐私输入。

安全多方计算经历了从理论探索到应用实践的发展历程,由于该领域涉及范围广、技术更新快,很难找到该领域中具有代表性和关键性文献。因此,为了更加严谨、全面、系统地分析安全多方计算领域的研究情况,本文采用CiteSpace软件对Web of Science核心数据库有关安全多方计算相关文献进行分析,采用定量定性相结合的科学分析方法,从国家、研究机构、核心作者、共被引文献、高频关键词和突现关键词六个方面进行分析,得到该领域研究状况、研究热点和研究趋势,为今后相关人员对安全多方计算的深入研究提供科学依据。

1 数据来源与研究工具

1.1 数据来源

为了研究安全多方计算领域在国际上的研究现状、热点及趋势,本文采用Web of Science核心合集,检索策略为((TS=(secure multi-party computing)) ANDTS= (SMPC) OR TS= (two-party computation) OR TS=(multi-party computation)),根据关联性进行排序,剔除掉与安全多方计算不相关的文献,最终选取了1887篇相关文献。

1.2 研究工具及方法

本文主要使用的知识图谱研究工具为陈超美教授开发的CiteSpace免费软件,它是应用Java语言开发的一款信息可视化应用软件,主要基于共引分析理論和寻径网络算法等,对特定领域文献(集合)进行计量,以探寻出学科领域演化的关键路径及其知识拐点,并通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测[1]。本文研究方法流程如图1所示。

2 研究状况

2.1 主要国家和机构分析

安全多方计算作为近几年的研究热点之一,世界各国都关注这方面的研究进展,因此通过对国家和机构进行分析,可以发现某些国家或研究机构之间的合作关系,评价国家或机构的学术影响力,有利于我们发现该领域水平较高的、值得关注的那些国家或机构。

表1是在安全多方计算领域中发文量前十的国家及其在该国家内的主要机构的发文量、国家发文的开始年份和中心性(中介中心性)。可以看出,虽然中国较其他几个国家发文量较晚,但却是发文量最多的国家,共231篇,其中,北京邮电大学发文量最多,为25 篇,说明该机构在安全多方计算领域学术影响力较大。发文第二的是美国,共156篇,但该国家中的主要研究机构发文量较少,发文量第一的是哥伦比亚大学,仅有11篇,说明该国家内研究该领域的机构分布较分散。发文量第三的是以色列,共67篇,较前两个国家的发文总量相差较大,但该国家内的以色列巴依兰大学却是在国际上发文量最高的机构,有32篇,说明该机构在安全多方计算领域中具有较大影响力。

表格中的中心性为中介中心性,其值越高,说明该国家或机构的影响力越大,越处于中间位置。根据表1可以得出中心性最高的国家为美国,中心性为0.79,证明美国在该领域的发展过程中作用最大。中心性排名第二的为中国,中心性为0.4。第三为德国,中心性为0.24。通过CiteSpace软件对国家之间的合作关系进行分析,我们发现美国在安全多方计算领域起到了重要的桥梁作用,贯穿在该领域发展的各个时期。我国则是近期在安全多方计算领域取得的成就较多,同样为该领域的发展做出了指导性贡献。

2.2 作者分析

2.2.1 核心作者分析

一个领域繁荣发展的背后是一批理论扎实、潜精严思、钻坚研微的核心研究者。通过对核心作者的分析,可以了解该领域的研究现状。表2是国际上发文量位于前十的作者,可以看出,发文量位居第一和第二的作者都来自以色列巴依兰大学,二人都曾是以色列魏兹曼科学研究院的博士生,从侧面说明以色列魏兹曼科学研究院和巴依兰大学是以色列在安全多方计算领域的领军机构。发文量第三的是我国华北电力大学博士生导师石润华,发文量较前两名相差不大,为13篇。通过对核心作者的主要关注点分析可知,安全多方计算涉及最广的两个学科是密码学和组合数学,两者是该领域形成的理论基础。

2.2.2 作者合作分析

通过CiteSpace软件可以生成作者合作图谱,如图2所示,圆圈的大小表示作者发文量的多少,两个节点的连线表示两个作者之间进行的合作,连线的深度越深,表明合作次数越多。安全多方计算领域中相关作者的合作可以分为两个时期,第一个时期是该领域形成的早期,以Y LINDELL、R Cramer、U Maurer、BPINKAS为代表;第二个时期是该领域研究的近期,主要有三个团队,第一个是以BENNY PINKAS、YEHUDA LINDELL、CARMIT HAZAY 为代表的以色列巴依兰大学团队,第二个是以QIULIANG XU、YILEI WANG和CHUAN ZHAO为代表的团队,第三个是以RUNHUA SHI、HONG ZHONG、LIUSHENGHUANG为代表的团队。

2.3 共被引文献分析

若两篇(或多篇)论文同时被后来的论文所引证,则称这两篇论文构成共被引关系。共被引文献的分析对研究某一领域的发展历程至关重要,它是该领域的知识基础[2]。如图3所示,利用最大似然算法(LLR) 对文献进行聚类分析,可以将国际上对安全多方计算的研究大致分为三个时期,不同时期的共被引文献的主题不同。

1) 1997—2004年:该时期的主要研究热点集中在隐私保护、数据挖掘,量子计算等。该时期主要与数学和密码学的计算相关,大多数研究集中在安全多方计算的可行性,提出了一系列与协议安全性相关的定义。其中,Canetti R在该时期贡献最大,2000年提出了多方密码协议安全性的一般定义,并在计算模型中提出第一个协议安全性的定义[3]。2001年提出了一种定义加密协议安全性的新范式,称为通用可组合安全性[4]。2002年展示了以一种可组合的方式安全地实现任何两方和多方功能[5]。该时期是安全多方计算研究的起步阶段,大多数研究多停留在理论层面,为后来的深入研究奠定了理论基础。

2) 2005—2015年:该时期的主要研究热点集中在量子加密和混淆电路等。其中2005—2008年发文量较少,主要原因是同态加密技术作为安全多方计算协议的设计工具,在2009年之前,未做到真正意义上的全同态加密,即只支持在密文上进行加法或乘法操作,但不能既做加法又做乘法。直到2009年斯坦福博士Gentry提出全同態加密方案[6],开启了安全多方计算的新纪元。2012年,Damgard I提出了一个通用的多方计算协议[7],该协议可用于安全地计算任何有限域F上的算术电路。该时期是安全多方计算的成长阶段,研究学者运用各种工具进行安全多方计算的设计与研究。

3) 2016至今:该时期的主要研究热点集中在数据模型、公平性等。经过前期学者们的苦心研究,安全多方计算开始繁荣发展,由于此阶段正是大数据和人工智能时代,所以大部分学者集中研究机器学习模型的隐私性和安全性问题。Mohassel P使用安全的两方计算在联合数据上训练各种模型并实现了第一个用于训练神经网络的隐私保护系统[8]。Li P提出了一种基于多密钥完全同态加密 (MK-FHE) 的基本方案,并结合双重解密机制和完全同态加密(FHE) 提出了一种基于混合结构的改进方案[9]。该时期是安全多方计算的繁荣发展阶段,研究学者集中关注于安全多方计算的实际应用。

将共被引前十的文献进行排序,得到表3,通过分析可知,共被引前十的文献中,有一半的文献发表于2016年之后,而且大多数与机器学习有关,说明在人工智能时代下,机器学习的隐私性和安全性问题受到了重视,而安全多方计算就是其解决方法之一。

3 研究热点与趋势分析

3.1 研究热点分析

3.1.1 基础研究领域分析

关键词是对文章和主题的高度总结与概括,通过关键词分析可以使我们了解某一领域的研究趋势及热点的演变情况。把CiteSpace软件中的时间区间设置为2000年1月到2022年6月,时间切片设置为1年,按照关键词的频次进行排序,截取频次位于前十的关键词,得到表4。由于本文的主要主题词是安全多方计算,所以相关主题词出现较多,比如安全、计算、协议、安全两方计算等,大多出现在2000—2002年,同一时期的关键词还有不经意传输,说明安全多方计算早期是以协议与理论为根基,处于探索阶段。在2009—2012年这段时间,新出现的关键词有同态加密、秘密共享、量子密码学,该阶段是安全多方计算发展阶段,主要将安全多方计算与密码学深度融合。

3.1.2 阶段性前沿研究分析

突现关键词是某一时期出现的高频关键词,集中反映该时期的研究热点领域,同样也是预测研究趋势的重要依据[10]。由图4可以看出,安全多方计算是以拜占庭协议为基础,设计了一系列公平、秘密的交换方案,奠定了安全多方计算的理论基础;随后研究学者开始将安全计算运用于实际中,出现了安全两方计算、多方计算、位置隐私等;目前的研究热点是结合各种技术与方法,如同态加密、计算模型、机器学习等,与安全多方计算有机结合,提供更加安全、平等、隐私的多方计算。

3.1.3 研究主题方向分析

运用CiteSpace软件对关键词进行聚类并画出时间线图谱,如图5,时间线图谱侧重从时间的维度来显示知识演进的视图,可以清晰地展示出关键词之间的更新和相互影响。时间线图谱中的圆圈越大代表着此关键词的频次越大,两个圆圈之间的连线表示两个关键词共同出现在同一篇文章。聚类分析的Q 值(Modularity值)是图谱网络模块的评价重要指标,当Q 在0.3以上时表示聚类结构显著。S值(平均轮廓值)来衡量网络同质性,当S值在0.5以上时,表明聚类划分是合理的,当S值在0.7以上,意味着聚类是令人信服的[1]。本研究通过CiteSpace软件对关键词进行聚类,得到Q=0.533,S=0.837,说明该聚类合理。

将前十个最大的聚类结果排序分别为安全多方计算、不经传输、联邦学习、认证、量子密码学、计算建模、同态加密、敌手结构、秘密共享、通信复杂度。这10个聚类结果就代表着当前安全多方计算的热点领域,对这10个热点领域进行分析,可以发现在2004年之前,安全多方计算的热点在设计的安全性与效率方面,其中不经意传输协议是主要的密码学协议,指的是消息的发送者发送给接受者一份消息,但不知道接受者是否接收到,保证了接受者的隐私性。而在2004 年之后,大量安全多方计算技术开始涌现,如联邦学习、同态加密和秘密共享等,密码共享是现代密码学的一个分支,是保护数据和信息安全的重要手段,指的是一个秘密分为多个部分分给一个用户群体中的所有成员,以达到密码由所有成员共同掌管的目的。联邦学习是一种新兴的技术,由谷歌在2016年首次提出,可以实现多个数据拥有方共同训练同一个机器学习模型。这些技术丰富了安全多方计算的研究工具,为今后安全多方计算的发展奠定了基础。

3.2 研究趋势分析

通过前文对2000—2022年Web of Science核心合集库中关于安全多方计算领域文献的分析与研究,可将此时间段内的安全多方计算研究的发展分为4个代表性阶段:

1) 理论探索阶段 (2000—2009年),在该阶段的研究热点主要是理论层面的研究,不断改进早期学者提出的协议,使其更具有安全性和可用性。如:该时期也有许多新的协议提出,其中最著名的是2004 年Freedman等人[11]提出的(隐私集合求交)PSI协议,它主要解决数据集的隐私问题,即允许持有各自隐私数据集的多方计算他们数据的交集,而不泄露交集之外的任何信息。该协议出现后,一股协议设计热潮开始出现,出现了基于Hash的PSI、基于公钥加密的PSI、基于RSA盲签名的PSI、基于不经意传输的PSI等,这些协议为多方计算的安全性提供了理论保证。

2) 应用初创阶段 (2009—2017年),这一阶段开始将研究热点关注在应用层面,一些行业巨头也开始尝试使用安全多方计算来解决数据安全交换问题。2009年Bogetoft等人将多方安全计算首次大规模、真正应用在实际场景中——丹麦甜菜拍卖系统[12]。在这个场景描述中,有几千个农民生产甜菜,这些甜菜被卖给丹麦唯一一家产糖公司。拍卖商需要知道所有卖家的出价,根据每个价格计算市场的总供求。而卖家不愿意让同行知道自己的出价,因为这揭示了农民的经济地位和生产力的信息。另一个例子是2017 年妇女劳动委员会与波士顿企业的合作项目[13],该项目研究员工的性别是否会影响他们的实际工资。公司不希望也不能合法披露员工的收入或财务信息。然而,通过安全的多方计算,他们可以计算出相应的统计分析结果,而无须给出具体数据。

3) 规模化发展阶段 (2018—至今),这一阶段受到数据保护法规的影响,越来越多的公司开始用多方安全计算来解决数据使用的合规性问题,致使多种支持多方安全计算的平台、框架相继被提出。2018年3月开源的基于TensorFlow 的多方计算框架—TFEncrypted,2019年6月谷歌开源多方安全计算(MPC) 工具—Private Join and Compute,2019年10月Facebook 开源多方安全计算框架—CrypTen。此后,一些学者开始将安全多方计算通用框架进行整合研究,查看其优缺点和使用场景,最著名的是2019年召开的安全顶级会议Security and Privacy 2019的一个演讲视频《SoK:安全多方计算通用框架》,对应的论文是Sok: General purpose compilers for secure multi-party computation [14],此论文非常详细地阐述了从2004年第一个通用MPC框架—“公平参与”开始到目前著名的MPC通用框架,从各个维度评价了各个框架的优缺点,并在不同的场景下提出了使用建议。而且,作者成功地建立了所有的通用框架,并将构建环境打包放在Docker中。

4 结论

本文运用CiteSpace 可视化工具,以Web of Sci?ence核心合集数据库中与安全多方计算相关研究文献为基础,重点分析了国家、研究机构、核心作者、共被引文献、高频关键词和突现关键词六个方面内容,探讨了国际上该领域的研究现状、研究热点及研究趋势,现归纳结论如下:

1) 从主要国家和机构分析来看,美国发挥的作用最大,贯穿着安全多方计算发展的全过程,我国则是近期在该领域发挥着指导性作用,形成了以北京邮电大学为核心的研究团队。对于主要机构的分析中,以色列的巴依兰大学是国际上发文量最高的机构,有32篇,说明该机构在安全多方计算领域中具有较大影响力。

2) 从核心作者分析来看,发文量位居前三的作者为BENNY PINKAS、YEHUDA LINDELL 和RUNHUASHI,其中前两位均来自以色列巴依兰大学,第三位为我国华北电力大学的博士生导师石润华。对于核心作者合作的情况分析,国际上分为两个时期,第一个时期是该领域形成的早期,以Y LINDELL、R Cramer、U Maurer、B PINKAS为代表;第二个时期是该领域研究的近期,主要有三个团队,第一个是以BENNYPINKAS、YEHUDA LINDELL、CARMIT HAZAY 为代表的以色列巴依兰大学团队,第二个是以QIULIANGXU、YILEI WANG和CHUAN ZHAO為代表的团队,第三个是以RUNHUA SHI、HONG ZHONG、LIUSHENGHUANG为代表的团队。

3) 从共被引文献分析来看,可以将国际上对安全多方计算的研究大致分为三个时期:理论探索时期、工具挖掘时期和应用发展时期。在每个时期都有较高学术价值的研究文献,其中频次最高的为2017年Mohassel P 发表的Secureml: A system for scalableprivacy-preserving machine learning.

4) 从研究热点来看,安全多方计算是以拜占庭协议为基础,设计了一系列公平、秘密的交换方案,奠定了安全多方计算的理论基础;随后,研究学者开始将安全计算运用于实际中,出现了安全两方计算、多方计算、位置隐私等;目前的研究热点是结合各种技术与方法,如同态加密、计算模型、机器学习等,与安全多方计算有机结合,提供更加安全、平等、隐私的多方计算。深入分析可知,在2004年之前,安全多方计算的热点在设计的安全性与效率方面,其中不经意传输协议是主要的密码学协议。而在2004年之后,大量安全多方计算技术开始涌现,如联邦学习、同态加密和秘密共享等,这些技术丰富了安全多方计算的研究工具,为今后安全多方计算的发展奠定了基础。

5) 从研究趋势来看,安全多方计算分为理论探索阶段 (2000—2009 年)、应用初创阶段 (2009—2017 年)和规模化发展阶段 (2018—至今)这三个阶段,随着数据保护法规的相继出台,多方安全计算的研究趋势仍是将具体理论知识落实到实际的应用场景中,确保多方计算更加实用、安全、高效。

猜你喜欢

文献计量学知识图谱
《广西民族研究》创办30年来刊发文章的回顾与展望
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展