基于知识图谱的中国大陆网络空间安全国际顶级会议数据分析
2023-02-17焦小彤何睎杰张玉清
刘 鹏 焦小彤 何睎杰 王 鹤 张玉清
1(西安电子科技大学广州研究院 广州 510555)2(中国科学院大学国家计算机网络入侵防范中心 北京 100049)
1 引 言
1.1 数字化的学术信息
近些年,学术信息的数字化日渐发展完善,每年都会产生大量的学术数据.在海量的学术数据中隐含着学者的平均学术水平、当前的学术研究热点和机构科研水平的变化等内容.
面对海量且增长迅速的学术数据,利用互联网上日趋完善的数字化学术信息分析其中的文献数据已成为数据挖掘领域的一个新兴热点[1].
1.2 知识图谱
知识图谱是以图的形式存储实体及其之间关系的数据库[2].知识图谱的概念起源于语义网络,2012年由谷歌提出,已成功应用于智能搜索领域[3].逻辑上知识图谱分为2层结构:本体层和实例层[4].构建知识图谱主要使用自然语言处理等技术进行实体提取和本体提取[5].知识图谱广泛应用于智能搜索、个性化推荐[6]、知识推理等领域[7].
知识图谱按其内容可以分为通用知识图谱与专业知识图谱.通用知识图谱侧重于知识的广度,如基于维基百科构建的DBpedia[8]、YAGO[9]、上海交通大学的zhishi.me[10]等.专业知识图谱侧重于某一行业领域内容,如清华大学影视双语知识图谱[11]等.
1.3 主要目标
目前尚未有针对安全领域4大顶级会议和3大密码会议学术数据的专业知识图谱构建.为了弥补针对7大会议的专业知识图谱构建的空白,本文尝试从7大会议的学术数据构建专业知识图谱,并进行应用分析.构建该专业知识图谱有助于更好地评估科研水平、帮助研究者更好地把握安全领域和密码学领域的前沿学术热点.本文的主要工作和贡献如下:
1) 基于Springer网站和安全领域4大顶级会议官网的论文数据,提取并处理7大会议上所有论文并将其存储到数据库中,首次构建了7大会议的知识图谱.
2) 基于构建的知识图谱,对7大会议的数据进行了基本统计和分析,为我国的安全领域和密码学研究提供了参考.
接下来,本文将分为3个部分介绍针对7大会议的数据处理与知识图谱构建与应用、学术数据统计分析和总结与展望.
2 数据处理与知识图谱构建与应用
本节主要从安全顶级会议官网和密码学会议数据源中,使用爬虫、自然语言处理等技术提取论文数据,并进行去重补全等处理.
2.1 数据源
SpringerLink是科技出版机构Springer的官方网站,包含了CRYPTO,EUROCRYPT和ASIACRYPT历年的论文数据;针对安全领域4大顶级会议本文使用官网数据作为数据源.
2.2 数据提取
根据2.1节确定的数据源,本文基于Python语言使用网络爬虫提取数据.按以下步骤实现数据提取和存储:
1) 使用Python中的request库访问数据源的网页,获得整个网页的数据;
2) 分析网页结构,使用Xpath库根据网页节点解析网页内容,获取所需的数据;
3) 将数据写入数据库,完成数据的存储工作.
2.3 数据去重
在现实中,一个机构往往存在多种不同的名称,如缩写、别名等.本文采用启发式的方法,使用正则表达式进行去重.
对于学者姓名的去重,由于同名且学术成果类似的学者较少,本文通过手动确认的方式完成去重工作.
2.4 数据补全与关键词提取
论文的关键词数据存在较为严重的缺失,需要进行补全.本文采用TF-IDF算法[12]和RAKE算法[13]进行数据补全和关键词提取.2种算法中,TF-IDF算法能够处理单个关键词,但无法处理词组.RAKE算法可以提取关键词词组,但无法处理单个单词的关键词.因此对于缺失关键词的论文,本文结合使用RAKE算法与TF-IDF算法,从摘要中提取关键词.
2.5 知识图谱的构建与使用
本文使用neo4j图数据库对论文数据进行分析,提取数据中实体的抽象本体,分析本体之间的关系,构建出知识图谱的本体层,通过neo4j-import工具导入图数据库,形成知识图谱的本体结构图.
使用neo4j数据库构建并保存知识图谱后,可以使用CYPHER查询语言对图中的数据进行查询.CYPHER查询语言中,使用MATCH语句选取节点,并根据关系边对图进行搜索,WHERE语句对选取的节点进行过滤,最后RETURN语句返回选中的节点.
3 学术数据统计分析
基于已经构建好的知识图谱,使用2.5节介绍的查询语言来查询数据.后续使用的数据同时来源于学术微信公众号:安全张之家.
3.1 安全4大顶级会议数据统计分析
3.1.1 国内机构数据统计分析
截至2022年12月,中国大陆的机构在安全领域4大顶级会议上参与发表了共计512篇文章.其中ACM CCS上发表201篇、NDSS上发表80篇、USENIX Security上发表152篇、IEEE S&P上发表79篇,如表1所示:
表1 安全领域4大顶级会议我国历年发文数量统计
从表1可以看出,我国机构2013年以前总计参与发表12篇论文,说明在2013年以前我国在安全领域的研究还处于摸索阶段.
2013年后,我国安全领域的研究水平有了一定的提升,说明越来越多的国内学者开始关注安全领域的问题,从2018年开始进入了爆发式增长的阶段,最近2年的发文数量均稳定在100篇以上.
安全领域4大顶级会议参与发文数量前10的我国机构如表2所示.从表2可以看出,清华大学和浙江大学发文数量领先,这也反映出这2所院校在安全领域雄厚的科研实力.
图1 3大密码会历年参与发文数量统计
3.1.2 国内学者数据统计分析
以上统计了国内学者在安全领域4大顶级会议上参与发文数量.表3示出我国学者在安全领域4大顶级会议上发文数量前10学者.按照参与发表数量多少排序,若参与发文数量一致,则按照学者署名的英文字符串排序.仅统计同时是中国大陆学者且以中国大陆机构发文的数据:
表2 安全领域4大顶级会议参与发文数量前10机构
表3 安全领域4大顶级会议参与发文数量前10学者
本文对学者杨珉在复旦大学参与发文数量的占比情况作了统计.发现截至2022年12月复旦大学共在4大顶级会议上参与发表45篇论文,学者杨珉参与发表的论文占比为73.3%.可见杨珉对于复旦大学在安全领域的研究作出了很大的贡献.
3.1.3 4大顶级会议研究趋势分析
通过以上统计分析发现:
1) 软件与系统安全仍然是目前安全领域的热门研究方向,并且增长趋势大于网络安全、漏洞利用与分析;
2) 漏洞分析与利用研究方向虽然热度不及网络安全和软件与系统安全,但是上升趋势比较稳定.
3.2 密码学3大顶级会议数据统计分析
3.2.1 我国机构发文数量统计分析
截至2022年12月,我国机构在3大密码会上共参与发表255篇论文.其中在亚密会参与发表122篇、欧密会参与发表55篇、美密会参与发表78篇.最早在1988年就有我国机构在3大密码会上参与发表论文,可见密码学领域的发展相较于安全领域起步要早.各个会议的统计数据如图1所示.
我国机构从2005年开始,在3大密码会上参与发文数量逐渐上升,并达到了一个新的高度.2012年以后,在3大密码会上参与发文数量明显增加.可能是因为从党的十八大开始,党中央和国务院对信息安全领域高度重视,先后设立了多个部门和机构,极大地促进了密码学和信息安全的发展.
我国机构在3大密码学会议上发文数量前10的机构如表4所示.在密码学领域,中国科学院和清华大学处于领先.相较于安全4大顶级会议的参与发文前10机构,密码学领域起步更早,但在总数上并没有超过4大顶级会议发文的数量.
表4 3大密码会议参与发文前10机构
3.2.2 国内学者数据统计分析
表5示出国内在3大密码会上发文数量的前10学者.规则同3.1.2节.
表5 3大密码会议参与发文前10学者
来自上海交通大学的学者郁昱在密码学3大会议参与发表了16篇文章,前3位学者的参与发文数量非常接近.郁昱在上海交通大学所有密码学3大会议参与发文的数量占比为36.3%,在密码学领域中,该占比已经很高,极大地推动了上海交通大学在密码学领域的发展.
3.2.3 密码学研究趋势分析
关于国际上密码学领域最常出现的前20个关键词的增长趋势分析如表6所示.从表6可知:
1) quantum,lattice cryptography,zero know-leadge等领域上升趋势明显;
2) 关于public-key encryption,signature等领域的相关论文数较为稳定,依然有大量的研究;
3) RSA,Discrete Logarithm以及stream cipher等旧的研究领域,相关论文呈现下降趋势,说明这些领域的研究已经较为成熟,其应用研究也较为稳定.
除此之外,国内一作论文中,最多的关键词为hash function,MILP等.
表6 密码学领域关键词趋势分析
3.3 综合分析
本文还统计了在7大会议上参与发文数量最多的前10个国家.其中在3大密码会议上,前3的国家分别是美国、法国和以色列.中国排在第11位.在安全4大顶级会议上,发文数量前3的国家分别是美国、德国和中国.
美国不论在4大安全顶级会议还是3大密码会议上,相较于其他国家都有着巨大的优势.在4大顶级会议上,美国参与发表论文的总数在全球参与发表论文总数的占比超过50%.
在7大会议的综合学术数据中,参与发文前10的我国机构如表7所示.从表7发现:
1) 在前10的机构中,有些机构在安全领域和密码学领域的成果分布比较均匀.例如中国科学院大学在密码学3大会议参与发表论文数占其在7大顶级会议上发表论文数的48.8%.
2) 有些机构在安全领域或者密码学领域其中的一个领域成果较多.例如浙江大学在安全4大顶级会议上参与发文数量占其在7大顶级会议参与发表论文数的96.4%;密码学国家重点实验室在3大密码会议上参与发表论文数占其在7大会议参与发表论文总数的84.0%.
综合7大会议的学者数据,来自复旦大学的学者杨珉以在7大会议参与发表33篇名列第一.值得注意的是学者杨珉的33篇论文均发表在安全4大顶级会议上.
表7 7大会议参与发文数量前10机构
3.4 结论与启示
从国家角度来看,可以得到以下结论:
1) 我国在安全领域的研究起步虽然比较晚,但是成果产出比较高效,这充分说明我国对于安全领域研究的重视,也说明了安全领域是一个研究的热门领域.
2) 我国在密码学领域的研究起步较早,但是成果产出没有安全领域的高效.密码学领域的研究和我国的国家信息安全密切相关,因此密码学领域仍然是一个非常有价值的研究领域.
3) 在国际上虽然我国在安全领域已经进入前3,但是和美国相比还有很大的差距,还需要不断地努力.值得注意的是,我国在增长速度上是国际上最快的.
从机构的数据来看可以得到以下结论:
1) 在7大会议上,我国前10机构在安全领域的成果产出分化明显,相对而言在密码学领域的成果产出差距较小;
2) 不同的机构对于安全领域和密码学领域的关注程度不同,这可能与机构最初设立的目标、机构内研究人员擅长的领域、资源分配、机构的发展历程有很大关系.
从学者的角度来看可以得到以下结论:
1) 大多数学者注重合作的科研方式.随着当前领域研究的不断深入,完成一项优秀的工作所需的精力、时间、智力都在增加.因此合作更能够高效地完成优秀的科研工作.
2) 有些学者的参与发文数量在其所在机构的发文数量中占比非常高,反映出该学者对于所在机构该领域的研究有非常重要的推进作用.
从研究趋势来看可以得到以下结论:
1) 在4大顶级会议上,软件与系统安全仍然是研究的热门方向,但是模糊测试、区块链和机器学习领域的安全问题正在成为新兴的研究方向.
2) 在密码学领域,公钥加密、签名算法等领域仍然是研究的热门方向.但是零知识证明、量子密码等领域上升趋势明显,而RSA和流密码领域则呈现下降趋势.
4 总结与展望
本文实现了安全领域4大顶级会议和3大密码会议知识图谱的提取构建流程,并基于密码学领域的顶级会议文献,构建了专业学术知识图谱,同时对7大会议的学术数据进行了详细分析,为研究人员了解我国安全领域和密码学领域研究水平提供了参考.本文工作填补了安全领域4大顶级会议和密码学领域学术知识图谱的空白,有助于未来的学术研究.