期刊与会议的混合共被引网络分析
——以计算机科学领域为例
2018-11-28王贤文
■孙 瑶 王贤文
大连理工大学科学学与科技管理研究所暨WISE实验室,辽宁省大连市甘井子区凌工路2号 116024
在大多数学科中,学术期刊是展示科学活动成果的重要载体,是科学家们进行学术研究和交流的正式渠道,科学家们倾向于在学术期刊上发表最新研究成果,达到与同行和读者交流的目的[1]。学者们参加学术会议主要是为了将初步研究结果与同行分享,以期听取同行意见,完善后续研究,从而使科研成果发表至学术期刊,因此,学术会议的影响力无法与学术期刊相提并论。但在计算机科学中存在截然相反的现象:计算机科学领域的研究学者将学术会议作为研究成果发表的首选渠道,且绝大多数的会议论文不再投稿于期刊。根据Davidson等[2]2017年的研究,计算机科学领域中最有影响力、最高同行审议的被引论文通常出现在会议论文集中。裴世保等[3]统计分析了计算机科学领域中某些著名科学家和科研单位的论文发表和引用情况,用具有代表性的数据说明会议论文具有显著影响力,应该与期刊论文一起作为学术评价的重要依据。
共被引分析方法可以被用来揭示科学结构发展现状、预测未来研究热点或者进行学科领域分析,从而达到为科技决策提供支持、为科技规划与评估提供基础的目的[4]。共被引分析是基于文档(论文、作者和期刊等)引用关系的相似性度量,被定义为两个文档被其他文档一起引用的频率。两个文档共同被引用的次数越多,它们的相关性越高[5]。Chen[6]提出利用期刊共被引分析来明晰和定位某一学科领域主要交流的期刊。作为一种经典文献计量方法,共被引分析被广泛应用于揭示学科领域内的学科结构和关系[7-8]。王贤文等[9]将检索期刊的共被引频次矩阵,通过聚类分析和网络结构分析,定量考察中国地理学的学科结构以及其在国际学术界的影响。学术期刊共被引关系的强弱也反映了期刊的亲疏关系,可通过共被引分析来挖掘学术期刊之间的关系并进行期刊分类,考察学科的内部知识结构和联系情况[10]。
传统共被引分析是基于参考引文的分析,并且受制于文献计量学软件的处理和运算能力,只能局限于小数据集。如在刘艳[11]的研究中,选取了“计算机体系结构/并行与分布计算/存储系统”领域的13个A类期刊和会议作为研究对象,数据量少且仅局限于一个学科,缺乏代表性。且以往的共被引分析研究没有将会议论文集包含在共被引分析的数据集内。黄紫菲[12]仅用基本科学指标数据库(Essential Science Indicators,ESI)收录的近10年来有关计算机领域的期刊文献进行计量分析得出相关研究热点与作者集群分布,没有考虑会议论文集。邱均平等[13]利用SCIE数据库中检索的计算机科学高水平国际学术期刊,验证国际合作是否能提高科学研究的影响力,同样忽略了计算机科学领域的会议论文集。由于会议论文集在计算机科学中的重要性不能被忽视,所以本研究将期刊和会议论文集共同作为共被引分析的数据集,构建计算机科学期刊和会议论文集的混合共被引网络。本研究中界定的混合共被引即共被引对象不只包括一种文献类型,而是同时涵盖期刊与期刊、期刊与会议论文集、会议论文集与会议论文集之间的共被引关系。
社会网络分析法最早可追溯到社会心理学家莫雷诺提出的社会测量法,它整合了数学、社会学、统计学、图论学等多门学科来研究行动者之间相互关系。经过多年发展,社会网络分析法已经由原来单一的研究方法发展为一个理论框架[14]。社会网络分析方法是社会学领域内比较成熟的研究方法,其利用“显著性即重要性”的基本原理,对发现网络中具有重要影响力的节点有独到的功效[15]。本研究基于此原理,利用社会网络分析法寻找“期刊-会议”混合共被引网络中有重要影响力的节点,即对整个网络知识传播有重大影响力的期刊或会议。
本研究的创新点在于将期刊和会议论文集同时作为网络中的节点,进行二者混合共被引网络的可视化呈现。利用社会网络分析的相关理论进行分析,以期明晰计算机科学领域内的学科结构,甄别计算机科学领域内期刊和会议的重要性差异,为其他学科提供新的期刊研究方法和学术评价办法,对政策制定提供一定指导性建议。
1 数据和方法
本研究选择的数据库为Scopus数据库。Scopus数据库涵盖数据量大,由爱思唯尔(Elsevier)公司在2004年创立,现已发展成世界上最大的文摘和引文数据库之一,涵盖了15000种科学、技术及医学(Scientific, Technical and Medical,STM)方面的期刊,涉及大约11000个出版商,包括同行评议期刊、会议集和书籍。虽然中国知网中既包含针对期刊引用的评价指标,也有各类文献(包括会议论文)的评价指标,但Scopus数据库的高级检索功能可最便捷地实现本研究中所需要的复杂混合共被引检索。在Scopus数据库的高级检索项中,用代码REFSRCTITLE可以检索参考文献中涵盖目标出版物所出版文献的文章。用REFSRCTITLE代码和其他操作符(AND, NOT, OR等),就可以检索任何两个目标标题之间的共被引关系的数量,这是其他数据库所不支持的检索功能,因此可利用该功能建立期刊和会议集文献之间的混合共被引网络。例如,在Scopus高级检索中输入检索式REFSRCTITLE (JournaloftheACM)进行检索,在返回结果集中任选一篇文章查阅其参考文献列表,发现其参考文献中含有出版物JournaloftheACM收录的文献(图1)。
图1 检索示例
本研究选取的研究对象来源于澳大利亚计算研究与教育协会(Computing Research and Education Association of Australasia,CORE) 的期刊和会议排名系统。该系统是计算机科学领域内最为权威的期刊和会议排名系统,被全世界各大机构作为计算机科学领域的评价体系标准广泛采用(http://www.core.edu.au)。本研究基于CORE的期刊和会议排名系统,选取CORE系统中的A类期刊和会议,经过筛选并与Scopus数据库中的名称反复检索对比,最终选取366个期刊和会议论文集名称作为本次研究的对象,其中包含203种期刊和163个会议论文集。考虑到计算机科学发展相对迅速,本研究选取2013年以后出版的文献。
在Scopus数据库中,大多数期刊和会议论文集都可直接应用简单的检索式进行检索。例如,检索式REFSRCTITLE(International Computer Symposium)PUBYEAR AFT 2013,可以直接返回参考文献来源于会议论文集InternationalComputerSymposium且在 2013年之后出版的文献。对于名称较为简短的期刊或会议集,例如Cognition,需要用NOT运算符排除包含单词“Cognition”的其他出版物。
本研究选取的366个期刊或会议论文集名称,需要获得其中任意两个的共被引频次,包括期刊与期刊、期刊与会议论文集、会议论文集与会议论文集的共被引频次,即混合共被引。因为共被引是无向的,所以对于366个期刊和会议论文集一共需要获得66795对共被引关系。首先检索某一期刊或会议论文集的被引情况,然后在该结果界面中检索另一期刊或会议论文集的被引情况,从而达到检索这两个期刊或会议论文集名称共被引频次的目的。表1选取了JournaloftheACM、LogicalMethodsinComputerScience、InformationProcessingandManagement、ACM/IEEEConferenceonSupercomputing和ProceedingsoftheACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining这3种期刊和2个会议论文集名称作为示例展示数据结果(期刊用斜体标注,会议用黑斜体标注,下文同),数据查询的时间为2018年6月18—30日。由表1可知,期刊JournaloftheACM与期刊LogicalMethodsinComputerScience的共被引频次为938次,期刊JournaloftheACM与会议论文集ACM/IEEEConferenceonSupercomputing共被引频次为105次。
表1 3种期刊和2个会议论文集名称共被引频次
注:①文中图2~5为黑白示意图,请扫描文后二维码查阅彩色原图。
本研究的共被引关系用Jaccard系数(Jaccard Index)进行标准化处理。Jaccard系数又称为Jaccard相似系数(Jaccard Similarity Coefficient),用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。与传统相似性度量方法相比,Jaccard系数完善了余弦相似性只考虑用户评分而忽略了其他信息量的弊端,特别适合应用于稀疏度过高的数据[16]。Jaccard系数的定义为两个样本之间交集的大小除以其并集的大小。假设在Scopus数据库中检索到两个样本的总被引频次分别为X和Y,二者的共被引频次为X∩Y,二者总被引频次为X∪Y。两个样本之间的Jaccard系数计算公为
J(X,Y) = |X∩Y| / |X∪Y|
(1)
本研究也计算了该网络中节点的中介中心性(Betweenness Centrality)。中介中心性是基于最短路径图的中心性度量方法,最初是在社会关系网中衡量一个点的连通潜力,并由此得到复杂网络中节点连通能力的聚集度,从而反映节点在网络中的地位[17]。对于连通图中的每对顶点,顶点之间至少存在一条最短路径,使得路径经过的边数(对于未加权的图)或边的权重之和(对于加权图) 被最小化。每个顶点的中介中心性为通过顶点的最短路径数。本研究中所有网络图全部应用Gephi软件绘制,且均为无向图。
2 结果
2.1 期刊-会议混合共被引网络
图2①所示为计算机科学领域的期刊和会议论文集的混合共被引网络,黄色和绿色分别表示期刊节点和会议论文集节点。为方便显示,节点的标签用该期刊或会议论文集的缩写,如ARIST代表期刊AnnualReviewofInformationScienceandTechnology。用中介中心性来标记节点的大小,即中介中心性值越大,节点尺寸越大。连线的粗细由边的权重决定,即两个节点间Jaccard系数越大,连线越粗。
如图2所示,绿色节点代表会议论文集汇聚在一起,在图中央形成一个较为紧密的聚类;黄色节点代表的期刊分散在外围,但期刊之间也存在着较为紧密的联系,例如图2右下角的黄色节点凝聚在一起。图2结果表明,会议文献更倾向于与会议文献产生共被引关系;同样,期刊文献更倾向于与期刊文献产生共被引关系。期刊和会议的混合共被引网络之间存在较为明显的分界线。该网络中,会议论文集形成的聚类被外围的期刊聚类所包围,在一定程度上揭示了会议论文集在计算机的整个学科结构中居于更为核心的地位,并且会议论文集之间的关系更为紧密。
图2 计算机学科领域期刊-会议混合共被引网络(初始图)
2.2 共被引网络的学科分类
为观察具体学科在计算机科学领域结构中的位置和作用,将研究的366个期刊或会议论文集名称进行学科分类标记。按照中国计算机协会(China Computer Federation,CCF)提供的计算机科学领域分类,将366个节点划分为10个不同学科,分别用10种不同的颜色标记(表2)。将图2按照学科分类属性重新绘制,得到图3。在图3中,属于同一个学科分类的期刊或会议论文集节点被标记为同一颜色。由图3可知,有相同颜色即相同学科属性的节点并没有聚集到一起形成多个小社区,而是不同颜色的节点随机混乱的分布在该网络中,没有明显的分界线。
表2 不同颜色所对应的学科分布
图3 具有学科属性共被引网络
为使网络结构更清晰地揭示隐藏其中的各学科之间共被引关系,须减少图3节点和边的个数。通过不断调整阈值,最终选取0.0917作为最低Jaccard系数值来过滤权重值较低的边,这意味着连线权重低于0.0917的边将不会被显示,部分节点也会被过滤掉,最终的到了图4和图5(图5是在图4的基础上按照学科分类改变节点颜色)。在只保留重要节点和边的情况下,图4所示为期刊和会议之间的混合共被引网络,图5所示为学科分类后的混合共被引网络。图4和图5所示的网络中均包含140条边,91个节点。
图4 具有出版物类型属性的混合共被引网络
图5 具有学科属性的混合共被引网络
图4中,将期刊节点用黄色标记,会议节点用绿色标记。可以很明显地看出,调整阈值后,仍然体现出同类型文献内的共被引优势。在图中4个最大即最重要的节点中,有三个是会议ProceedingsoftheACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD),AdvancesinNeuralInformationProcessingSystems(NIPS),IEEEInternationalConferenceonComputerVision(ICCV),仅有一个是期刊JournalofMachineLearningResearch(JMLR)。
在只保留重要节点和边的情况下,聚类效果仍不是非常理想(图5),进一步说明计算机科学领域内不同学科的界限模糊,学科之间相互渗透程度较高。如图5所示,留下的领域主要有4个,分别为深灰色的软件工程/系统软件/程序语言,紫色的数据库/数据挖掘/内容检索,绿色的人工智能以及蓝色的计算机科学理论。而在91个节点中,数据库/数据挖掘/内容检索领域有23个,约占25%;人工智能领域有18个,约占20%。图4中的4个大节点中,KDD和NIPS为数据库/数据挖掘/内容检索领域,JMLR和ICCV为人工智能领域,反映当前计算机科学领域的研究热点为数据库/数据挖掘/内容检索及人工智能。对比图5和图3可以发现,在提高阈值之后,具有相同学科背景的论文更愿意相互引用,并形成了几个同色小聚类。对比图5和图4可以发现,不同学科的会议之间更愿意相互混合引用,学科交叉程度更强。
2.3 期刊和会议论文集的中介中心性比较
为从定量角度比较期刊和会议论文集之间的重要性,计算了各节点的中介中心性。所有节点和边的中介中心性大小排名前20的节点见表3,设置阈值为0.0917后重新计算的前20个节点见表4。表3中的20个节点中有15种期刊和5个会议,期刊占绝大部分。提高阈值后的核心网络(表4)中,有7种期刊和13个会议论文集记录,会议占一半以上。在核心共被引网络中,会议节点中介中心值明显上升,且会议节点占大多数。因此总体看来,期刊可作为计算机科学的主要学术交流工具,但在核心网络中,高水平会议论文集却有着更显著影响力。
表3 期刊与会议集的中介中心性(阈值为0.0000)
3 结论和启示
以往的研究大多是单独观察期刊或会议论文集的共被引情况以甄别核心期刊或重要会议,缺少整体全面的分析。期刊通常是作为某一学科的主要学 术交流工具而存在,但会议论文集在计算机科学领域中有着举足轻重的地位,本研究将计算机科学领域内的期刊和会议论文集同时作为研究对象,构建期刊-会议混合共被引网络。通过在Scopus数据库中获取CORE提供的计算机科学A类期刊和会议论文集的混合共被引数据,构建了计算机科学A类期刊及会议论文集的混合共被引网络,得出以下结论。
表4 期刊与会议集的中介中心性(阈值为0.0917)
(1) 同类型文献倾向相互引用。期刊与会议混合共被引网络中存在明显分界线,将会议论文集与期刊分成两个部分。这说明期刊文献更多引用期刊文献,会议文献更多引用会议文献。期刊与会议论文集的相互引用程度不高,在一定程度上表明即使是在计算机科学领域,期刊与会议论文集仍存在差异。
(2) 计算机科学内各学科领域界限模糊。首先,计算机科学领域内的研究热点为数据库/数据挖掘/内容检索及人工智能,符合当前发展事态。其次,在计算机科学中跨学科分类在一定程度上被忽略,属于同一学科的期刊或会议论文集(根据CCF的分类)并非倾向于同一学科内共同引用,而是无序地分布在网络中。学科交叉现象在高水平会议论文中更能体现,这表明计算机科学内不同学科领域需要相互借鉴和补充。简单来说,计算机科学理论学科可能广泛地被其他各学科领域所学习借鉴,网络与信息安全学科在一定程度上也能为数据库/数据挖掘/内容检索提供某些方面的支持,计算机科学的自身特点导致了该学科领域内各学科界限模糊。而会议相比于期刊发文速度快、周期短,与计算机科学发展迅速的特点相符合,因此各学科融合程度更高。
(3) 会议论文与期刊论文共同构建计算机科学领域的景观。对大多数学科而言,期刊是学术交流和促进学科发展最常见和最重要的渠道,但在计算机科学领域中,期刊论文和会议论文都非常重要,期刊在共被引网络中占一定优势,但在高水平论文集中,会议论文集有着更为显著的影响力。
综上所述,本研究总结出如下启示。
(1) 高水平会议论文集应纳入相应学科评价指标的考虑范围。特别在计算机科学领域内,高水平会议论文被广泛引用,具有相当高的学术影响力,研究学者和机构的学术水平评价应综合考虑到其学术会议的发文情况。对于计算机以外的其他学科来说,也不乏高水平的国际与国内会议,将高水平会议纳入评价指标的考虑范围,有助于更全面、科学和客观地进行科学计量评价。
(2) 期刊与会议相互促进发展。当前,国内外的许多高水平国际会议采取和高影响力学术期刊合作的方式,实现合作互赢发展。譬如投稿某些学术会议被全文录用并作口头报告的论文,可以在会议结束后进行完善和内容扩充后投稿和会议合作的学术期刊,并实现快速评审和专刊或专栏发表。学术会议可通过采取这种措施收获优秀投稿、增加吸引力、扩大影响力与交流范围。学术期刊也可以利用会议的某些优势,如快速获取专业领域最新学术信息、捕捉最新发展动态和热点、期刊编辑部和领域同行面对面广泛和深度交流等,扩大期刊在该学科中的知名度和影响力。