基于文献计量和知识图谱可视化的安全多方计算研究现状及热点分析
2022-01-26袁科程自伟范廷钰李征
袁科,程自伟,范廷钰,李征*
(1.河南大学计算机与信息工程学院,开封 475004;2.河南省大数据分析与处理重点实验室,开封 475004;3.河南大学国际教育学院,开封 475004)
随着现代因特网技术的快速发展,计算机通信技术使人们的信息交流变得越来越便利、密切。信息是数据的载体,如何打破数据孤岛,整合再利用多方数据使其产生价值[1],而保护各方隐私信息不被泄露呢?密码学中的安全多方计算技术能够解决保护多方数据共享以及隐私泄露的问题。安全多方计算(secure multi-party computation,SMPC)可以描述为:假设有n个参与方{p1,p2,…,pn},对应的秘密输入{x1,x2,…,xn},协作完成一项分布式计算任务,即f(x1,x2,…,xn)=(y1,y2,…,yn),计算结束后pi可以依据自己的秘密输入xi得到正确的输出yi,并且其他参与方无法知道其结果。安全多方计算是一种通用的加密原语,拓展了传统的分布式计算范畴,多个参与方能够在不暴露自己的秘密输入和输出的情况下,联合某个功能函数的计算。其直接应用能够体现在生活中的方方面面,如电子投票[2]、电子拍卖[3-4]、数据库数据查询[5-6]、隐私保护的数据挖掘[7-8]等。
安全多方计算最早来源于1982年图灵奖获得者姚期智院士提出的百万富翁问题[9],即两个百万富翁Alice和Bob,希望在不透露自己的财富的情况,能够知道谁更富有。Yao[9]提出的混淆电路和GMW编译器奠定了解决姚氏百万富翁问题的初步理论基础。此后,由安全两方计算研究扩展到安全三方计算、安全多方计算。作为密码学领域的一个重要的研究课题,1987年,Micali等[10]研究了一个多项式时间算法,能够在拥有不完整信息和任意参与方的情况下,构造不泄露各个参与方隐私信息的安全协议。对后续的安全多方计算研究具有里程碑意义,即在多数参与方为诚实的前提条件,理论上任意函数的安全多方计算协议均有相应的构造方法,成功攻克安全多方计算存在性的难题,激励着密码学界的大量学者开展大量的安全多方计算基础理论研究。1997年,国际著名密码学家Goldwasser[11]提出,安全多方计算领域的今天就是十年前公钥密码的昨天,现在它的实际应用才刚开始,但将来必定会成为我们计算中的一部分。2004年,Goldreich[12]指出具体应用场景下的具体问题,采用通用方法构造的安全多方计算协议存在计算复杂度高、效率低等问题,影响着后续安全多方计算研究的发展方向。此后,在相关基础理论不断完善的同时,安全多方计算技术也投入到越来越多的多方参与、保障隐私数据安全的应用方面研究。如Zarezadeh等[13]使用安全多方计算技术保护软件定义网络中的路由网络拓扑结构的隐私信息。Marwan等[14]为了实现医疗机构之间的安全协作,提出一种保护患者医疗数据的多方计算协议。Gilad-Bachrach等[15]为了解决云使用用户存储在云中的数据需要解密的问题,提出一种安全数据交换的密码解决方案。
目前,已有部分关于安全多方计算研究的综述文献,例如,Zhao等[16]概述通用SMPC协议构造技术的研究进展,以及云辅助SMPC协议的前言方法。Kumaran等[17]综述SMPC技术在隐私保护数据挖掘领域的研究进展;李禾等[18]介绍关于SMPC技术若干新的应用方向;蒋瀚等[19]综述SMPC实用化协议的3种支撑性技术的研究进展和成果;王婷[20]综述了SMPC相关理论的研究现状;马敏耀[21]从安全模型建立和可行性研究、通用协议研究、具体问题计算协议研究、实际应用研究、扩展问题研究5个方面简要阐述SMPC技术的研究进展。但均存在文献整理不够全面、缺乏代表性等问题,因此,为了更加全面、系统地梳理安全多方计算领域的研究状况,以Web of Science核心合集数据库1985—2020年检索的安全多方计算相关研究文献为基础,采用定量和定性结合的科学分析方法,从年发文量分布、期刊分布、核心作者、研究机构、引文分析、关键词6个方面进行分析,挖掘当前安全多方计算的发展动态和应用现状,为今后安全多方计算的研究提供科学依据。
1 数据来源与分析工具
1.1 数据来源
可靠的数据来源是确保研究结果具有可信度的基础[22],研究数据来源为美国科技信息所推出的Web of Science(WoS)核心合集数据库收录的文献。如表1所示,文献数据的检索式为TS=(secure multi-party computation),文献类型为all document types,安全多方计算最早来源于1982年姚期智院士提出的百万富翁问题,但WoS核心合集数据库文献检索起始年份最早为1985年,故时间跨度设置为1985—2020年。然后进行文献筛选工作,排除与研究主题关联性较低的文献,得到680篇研究文献数据对象。
表1 文献检索策略Table 1 Papers searched method
1.2 分析工具
UCINET软件最初是由加州大学尔湾分校的L.Freeman编写,依据图论等数学定量分析方法的社会网络分析工具软件。支持手动导入数据形成矩阵,可以做数据矩阵分类、转置、中心性、网络密度等分析操作,支持Netdraw、Mage、Pajek 3种可视化方式[23]。
SATI软件是采用C#编程语言开发的文献题录信息统计分析工具软件。可以导入处理EndNote、NoteExpress、NoteFirst等格式文献题录数据,统一转换为XML格式,具有题录格式转换、字段信息抽取、词条频次统计、知识矩阵构建四大功能。借助UCINET软件生成可视化图谱,揭示某一学科研究领域中知识单元间的关系[24]。
2 研究主体分析
2.1 文献增长规律分析
对年发文量进行统计分析,能够呈现研究文献的增长规律。安全多方计算研究年发文量如图1所示。由图1可知,总体上呈现先较平缓、后快速增长的变化趋势,大致能够分为两个阶段:理论建设阶段和快速发展阶段。
图1 文献数量统计分析Fig.1 Statistical analysis of published papers
(1)1985—2007年为理论建设时期。由于2000年之前检索到的文献数量十分少,因此将2000年之前的文献都归结为2000年。该阶段年发文量较少,均在20篇以下,最高发文量为2005年(13篇),密码学学者重点在进行相关基础理论研究。
(2)2008—2020年为快速发展阶段。随着新形势下复杂应用的安全需求越来越迫切,安全多方计算的研究成果激增,此时安全多方计算更加趋向于实际应用方向研究。年发文量均稳定在20篇以上,并在2019年达到最高值为76篇。可能受到全球新冠肺炎疫情的影响,2020年的发文量呈现出一个下降的趋势。
2.2 期刊分布情况分析
对来源期刊进行计量分析,能够在一定程度反映该领域的横向研究情况,也能够给密码学学者提供具有较强学术价值和参考价值的来源期刊[25]。由SATI分析软件结果可知,680篇安全多方计算研究文献分布在455种期刊中,刊均载文量约为1.5篇。载文量大于4的期刊数量为103,总占比约为15.15%;载文量大于1小于等于4的期刊数量为227,总占比约为33.38%;载文量为1篇的期刊数量为350,总占比约为51.47%。其中,期刊JournalofCryptology(16篇)、IEEEAccess(13篇)、CommunicationsSecurity(12篇)载文量均大于10。即从期刊种类和载文量方面得知,安全多方计算研究成果丰硕,呈现发散的趋势,表明该领域的整体研究规模处于较活跃的研究现状。
2.3 核心作者和研究机构统计分析
通过对高产作者和研究机构统计分析,能够帮助了解目前中外安全多方计算的研究学术群体和实际贡献[26]。采用SATI软件,绘制出作者发文量如表2所示,研究机构如表3所示。根据普赖斯定律有
(1)
式(1)中:Mmin为核心作者最低发文量;Nmax为发文量最多作者的文献数量[27]。普赖斯定律在一定程度上能够展现安全多方计算研究中较大影响力的核心作者。即核心作者的最低发文量Mmin≈4,经整理共有135位作者为安全多方计算研究的核心作者,仅罗列出前42位核心作者。由表2可以看出,其中国外发文量最多的作者是Ostrovsky R、Zikas V、Sahai A等,中国则是Yang W、Huang L S等。
表2 安全多方计算研究核心作者及发文量(部分)Table 2 Core authors and publications of secure multi-party computation research(part)
由表3可以看出,安全多方计算中外研究的主要力量集中在高校。具体来说,Univ Calif Los Angeles(加利福尼亚大学洛杉矶分校)和Beijing Univ Posts &Telecommun(北京邮电大学)两个研究机构在安全多方计算研究具有较高的发文数量。其次,Bar Ilan Univ(巴伊兰大学)、ETH(苏黎世联邦理工学院)、Aarhus Univ(奥胡斯大学)和Univ Sci &Technol China(中国科学技术大学)4个研究机构也紧随其后。中国安全多方计算研究机构与国外相比,科研生产力水平方面呈现出整体提高的趋势。
表3 安全多方计算研究机构(部分)Table 3 Research institutions of secure multi-party computation(part)
采用UCINET、Netdraw软件能够绘制社会网络图谱,可以直观地呈现出安全多方计算研究的机构关系。站在社会网络分析的角度来看,中心度指标能够衡量一个人或者组织在所处社会网络中的重要性[28]。而在安全多方计算研究机构分析的社会网络图谱中,机构与机构之间会受到强弱互动、是否有合作关系等因素影响,会出现节点分布在核心或边缘位置的情况。中心度算法一般有度数中心度、亲近中心度、中介中心度。主要使用度数中心度指标(在后文的高频关键词分析仍采用度数中心度指标)。度数中心度主要是基于关系网络中节点与节点之间的联系程度。一般来说,某个节点的度数中心度越高,就会处于关系网络中的较核心位置;某个节点的度数中心度越低,就会处于关系网络中的较边缘位置。在NetDraw插件中,采用Analysis→Centrality measures→Set Node Size by→Degree设置,关系网络中的每个节点都会有入度和出度,一般认为节点出度代表扩展程度,节点入度代表受欢迎程度[29],得到安全多方计算研究机构社会网络图谱,如图2所示。
图2 发文机构社会网络图谱(部分)Fig.2 Social network map of the publishing organization(part)
由图2可以看出,Univ Calif Los Angeles(加利福尼亚大学洛杉矶分校)、Columbia Univ(哥伦比亚大学)、Bar Ilan Univ(巴伊兰大学)节点较大并且入度和出度数量较多,位于网络核心地位,与周围节点(主要为MIT、ETH、Univ Illinois、Swiss Fed Inst Technol等高校)连线距离短,入度和出度数量多。表明该3所高校机构的研究重心较偏向于安全多方计算相关方面,并且和周边高校合作关系较紧密。
中国研究高校主要集中于清华大学、广州大学、电子科技大学、北京邮电大学与中国科学院等高校,东南大学与南京信息科技大学,安徽师范大学与中国科学技术大学,湖北工业大学和武汉大学四大学术研究群体。但均位于网络边缘地位,且与网络中心节点连线数量较少。随着中国相继颁布《中华人民共和国网络安全法》《中华人民共和国密码法》,表明中国重视和规范密码技术的研究和使用,研究团体还需进一步努力,缩小与国外研究团体在安全多方计算领域的差距,加速中国密码事业的转型升级。
2.4 引文分析
对共被引文献进行统计分析,能够发现安全多方计算的研究基础,呈现出该领域具有较有权威的经典文献[30]。使用SATI软件进行“引文”字段提取,得到安全多方计算领域被引频数前10的文献,如表4所示。被引频数最高的文献为1982年姚期智院士发表的《Protocols for secure computations》[9](209),首次提出百万富翁问题,奠定了安全多方计算研究的基础理论研究。被引频数排在第2位的文献为1979年Shamir发表的《How to share a secret》[31](172),首次提出(k,n)秘密共享的密码技术,构造多项式将秘密“拆分”为n个影子秘密,即使部分影子秘密出现故障,仍然能够通过超过或等于门限阈值k的影子秘密重构出秘密。被引频数排在第3位的文献为1986年姚期智院士发表的《How to generate and exchange secrets》[32](160),在确保两方数据隐私信息安全的前提下,基于大整数因子分解困难问题构造一个安全两方计算的安全协议。
表4 安全多方计算相关文献中被引频数前十的文献Table 4 Top 10 citations in the papers related to secure multi-party computation
3 研究热点分析
关键词是作者选出能够反映一篇论文学术思想内容的词汇,能够概括和代表当前文献研究的内容,对文献关键词进行统计分析,便于探讨安全多方计算领域的研究热点[33-34]。运用SATI软件对文献数据进行“关键词”字段提取,由于SATI软件分词不准确等因素,会出现部分干扰关键词。因此,还需要排除部分无效关键词、合并部分同义关键词后,得到关键词频数表,如表5所示。其中,num1代表2009年及之前阶段关键词的频数,num2代表2010年及之后阶段关键词的频数。进一步对安全多方计算研究文献的关键进行共现分析,挖掘各个关键主题词之间的联系,使用UCINET软件,并且采用Analysis→Centrality measures→Set Node Size by→Degree设置来衡量网络节点大小,呈现关键词之间的内在联系,绘制高频关键词共现社会网络图谱,如图3所示。
图3 高频关键词社会网络图谱Fig.3 High frequency keywords social network map
由图3可以看出,能够通过关键词节点与连线相邻节点,可以知道关键词在研究文献中共现的情况。其中研究主题词secure multi-party computation处于社会网络图谱的核心位置,也是度数中心度最大的节点。其次,节点crytographic protocols(加密协议)、secret sharing(秘密共享)和homomorphic encryption(同态加密)度数中心度较大,并且处于社会网络图谱靠近核心的地位。表明安全多方计算主要应用于隐私保护领域,对秘密共享、同态加密技术的使用或研究较多。对关键词频数和网络节点的重要程度进行对比分析,发现oblivious transfer(不经意传输)、quantum cryptography(量子加密)、computational geometry(计算几何)关键词尽管出现的频数较高,但在社会网络图谱中对应的节点却处于较边缘的位置。表明安全多方计算在计算几何方向的应用以及对不经意传输、量子加密技术还有进一步深入研究的空间。
结合以上的分析结果,安全多方计算的研究覆盖面广泛,已经融入人们生产生活的各项信息安全应用中,并且呈现出加速发展的趋势。对关联密切的关键词进行分类,可以清晰地体现该领域分支的构成。具体来说,能够对安全多方计算研究大致归类梳理为四个方面:安全多方计算模型研究、应用协议研究、基础模块研究和量子安全多方计算的研究。
3.1 安全多方计算模型研究
涉及的关键词有半诚实模型、恶意模型。理想的协议执行过程中,参与方会完全遵循协议的规则,只关心自己的正确输出结果,称为诚实模型。如果参与方在完全遵循协议规则的同时,将自己的秘密输入、中间结果和输出结果,以及记录其他参与方执行协议的中间结果泄露给攻击者,企图推导出其他参与方的输入和输出信息,称为半诚实模型[35]。如果参与方不遵循协议的规则,而是恶意篡改自己的输入、中间结果、在任意时间中断协议等,称为恶意模型[36]。由于实际应用场景的复杂性,会出现半诚实参与方、恶意参与方的情况,针对攻击者对理想的安全多方计算协议造成的破坏程度,进行相应解决方案的研究更加具有实际意义。安全多方计算在信息安全领域的安全性主要分为两方面:能够抵抗无限计算能力的攻击者、能够抵抗概率多项式时间计算能力的攻击者。由于恶意模型中参与者的主动攻击行为,相对于半诚实模型中参与者的被动攻击行为来说,构造出安全多方计算协议困难更大。例如,Zhang等[37]针对存在恶意攻击者的情况下,提出一种有效、安全的多方计算私有输入集相交信息的协议。Atsuko等[38]研究一种介于半诚实模型和恶意模型之间隐蔽攻击者的安全点积计算协议,并且能够应用于隐私保护数据挖掘领域中。Zhao等[39]研究了一种基于对称加密的能够解决姚氏百万富翁问题的安全协议,并且在恶意模型下能够证明是安全的。
3.2 安全多方计算应用协议研究
涉及的关键词有隐私保护的数据挖掘、计算几何、安全比较、安全求和、隐有集合求交、位置隐私、区块链、分布式计算、智能电网、网络虚拟化、隐私信息检索、隐私保护、基于物理智能卡协议、批量逻辑协议。在现实生活中,很多应用问题都可以转化为安全多方计算问题来进行处理,一方面,对原有的安全多方计算理论协议进一步改进;另一方面,为适用于特殊应用场景,对原有的安全多方计算理论协议进行裁剪,或重新设计新的安全多方计算协议。随着隐私保护问题越来越受到人们的重视,安全多方计算技术受到密码学学者的普遍重视,越来越广泛地应用到各个领域的安全应用中。例如,Alexandru等[40]提出适用于智能城市的分布式应用系统的安全多方计算方案,能够不泄露关于邻近节点的状态和控制信息。Vu等[41]针对现有的安全对方求和协议必须先进行多方身份认证、计算性能低的问题,研究了一种基于ElGamal加密和Schnorr签名改进的安全多方求和协议。Spini等[42]研究了一种能够分析患者和医院组织之间的连接位置数据的安全计算方案,并且证明在应用中具有可行性。
3.3 安全多方计算基础模块研究
涉及的关键词有秘密共享、同态加密、不经意传输、差分隐私、零知识证明、比特承诺、混淆电路、子图同构、不经意排序、图论。模块化构造是安全多方计算协议的构造方法之一,基础模块的研究基于数学知识和密码学知识。将大型复杂问题“分解”为小型基本问题,针对小型基本问题优化相应的基础理论模块,可以使解决问题的思路更加明确清晰,同时也能够成为解决更多类似问题的基石。比如秘密共享,能够重构秘密的所有参与者子集的集合称为访问结构;无法重构秘密的所有参与者子集的集合称为对手结构。Tang等[43]针对目前还没有有效算法确定最大对手结构,引入二叉树,并提出能够从给定任何的访问结构中确定最大对手结构的算法。Orrù等[44]研究了一种1-out-of-N不经意传输扩展协议,并且在随机预言机模型和标准模型下证明是安全的。Cimato等[45]使用有序二元决策图表示混淆电路分析,能够提高安全多方计算的工作效率。安全多方计算技术不断被深入研究的同时,也促进了相应基础模块的广泛研究,二者为相互辅助、共同促进的关系,对构造可证明安全理论的安全协议起到重大推动作用。
3.4 量子安全多方计算研究
涉及的关键词有量子傅里叶变换、量子加密、量子私有比较。随着量子计算理论的出现,基于数学困难问题的经典密码协议的安全性受到前所未有的威胁,比如大整数因子分解困难问题、离散对数困难问题等,在多项式时间内都能够被攻破[46]。经典安全多方计算协议的安全性是基于计算复杂性,而量子安全多方计算协议的安全性是基于量子力学的一些物理原理,使得构造的量子安全多方计算协议能够抵抗量子计算的攻击,相对于经典协议来说,具有无可比拟的优势。目前,有关于量子安全多方计算的研究很多,是区别于经典密码协议的新兴研究方向,比如量子私有比较协议[47]、量子多方求和协议[48]等。与现有的基于量子密钥分发的量子私有查询协议不同,Tao等[49]研究了一种基于量子云计算中的通用盲量子计算的更加安全的多方量子私有信息查询协议。Ji等[50]在有多个互不信任的参与者情况下,研究一种安全量子多方求和的协议。Liu等[51]研究一种能够解决多方数据安全共享的量子安全协议,并且该协议具有抵抗量子攻击能力,适用于大规模社交网络等场景。
4 结论和展望
安全多方计算在社会、经济、军事以及国家安全层面具有举足轻重的作用,是近30~40年来国际密码学界关注的研究热点。以Web of Science核心合集数据库1985—2020年的安全多方计算相关研究文献为基础,重点分析了年发文量情况、期刊分布、核心作者、研究机构、引文分析、关键词共现分析6个方面内容,探讨了当前安全多方计算的研究现状和热点分析,现归纳出结论如下。
(1)从文献增长规律方面来看,2007年之前年发文量增长较缓慢,2008年之后年发文量稳定增长,从总体趋势来看,下一阶段安全多方计算的研究热度不会减,文献数量依旧保持增长的状态。
(2)从来源期刊来看,安全多方计算研究成果呈现高度发散的状况,得到JournalofCryptology、IEEEAccess、CommunicationsSecurity等主要来源期刊。便于密码学学者能够在种类繁多且杂乱的期刊中找出具有较高参考价值的来源期刊。
(3)从引文分析来看,得到安全多方计算领域中具有较高学术价值的研究文献,比如《Protocols for secure computations》《How to share a secret》《How to generate and exchange secrets》等高被引文献。
(4)从核心作者和研究机构分布方面来看,国外发文量最多的作者是Ostrovsky R、Zikas V、Sahai A等,中国则是Yang W、Huang L S等。研究机构主要集中于Univ Calif Los Angeles(加利福尼亚大学洛杉矶分校)和Beijing Univ Posts &Telecommun(北京邮电大学)。Bar Ilan Univ(巴伊兰大学)、ETH(苏黎世联邦理工学院)、Aarhus Univ(奥胡斯大学)和Univ Sci &Technol China(中国科学技术大学)4个研究机构紧随其后。中国研究团体处于研究机构社会网络图谱的边缘地位,并且中外团队合作趋于地域化,学术互动交流较少。因此,中国密码学学者们需要努力提升自身科研能力,不断攻克安全多方计算研究道路上的重重难关,缩小与国外的差距。另一方面,还需要进一步合作交流,共同在安全多方计算研究取得更多推动信息化社会发展、促进人类社会进步的有意义成果。
(5)从研究热点来看,目前安全多方计算研究主要集中在模型研究、应用协议研究、基础模块研究和量子安全多方计算研究4个方面。在当今合作发展的社会中,人们对隐私保护的意识也随之增强,安全多方计算的研究也会越来越趋于多样化、实用化,将会在各个领域中的安全和隐私保护方面发挥着越来越重要的作用。目前,随着大数据、云计算、区块链技术等代表性因特网服务的兴起,下一阶段密码学学者结合这些新兴技术,构造效率和安全性更高的安全多方计算协议投入到更多的应用场景,确保多方在数据共享、整合数据资源的分布式计算任务中不泄露参与者的隐私信息。