APP下载

基于关键词的期刊发文的相似性测度研究

2018-01-07田大芳张瑞丽魏瑞斌

现代情报 2018年11期
关键词:情报学余弦图书馆学

田大芳 张瑞丽 魏瑞斌

〔摘要〕[目的/意义]关键词是反映期刊研究主题、研究方法和数据源等信息的重要途径。本文尝试通过论文关键词来研究学术期刊的相似度,为期刊分类等学术研究和实际工作提供参考。[方法/过程]首先,在相关文献梳理的基础上,提出了基于论文关键词的两种期刊相似度计算方法。然后,以《中国圖书馆学报》和《情报学报》为实证对象,从CSSCI采集了两种期刊1998-2017年的关键词数据。最后,计算了两种期刊的相似度,并分析了两种期刊论文的共现关键词。[结论]研究发现,两种期刊的相似度有一定波动,但整体上呈现为一个下降趋势。这反映出两种期刊上发表的论文的相似性在不断下降,而差异性在不断增加。

〔关键词〕关键词;期刊相似性;TF-IDF算法;余弦相似性;学术期刊

DOI:10.3969/j.issn.1008-0821.2018.11.018

〔中图分类号〕G250252〔文献标识码〕A〔文章编号〕1008-0821(2018)11-0105-04

Study on Measuring the Journal Similarity Based on the KeywordsTian Dafang1Zhang Ruili2Wei Ruibin3

(1.Library,Anhui University of Finance and Economics,Bengbu 233030,China;

2.Library,Shanxi University of Finance and Economics,Taiyuan 030006,China;

3.School of Management Science and Engineering,Anhui University of Finance and Economics,

Bengbu 233030,China)

〔Abstract〕[Purpose/Significance]Keywords are important ways to reflect the research topics,research methods,and data sources of journal articles.This paper aimed to study the similarity of academic journals through the key words of the paper and provided reference for academic research and practical work such as journal classification.[Method/Process]First,based on the review of relevant literatures,two kinds of journal similarity calculation methods based on the keywords of the paper were proposed.And then,the paper took Journal of library Science in China and Journal of the China Society for Scientific and Technical Information as examples and collected keywords of the two journals from CSSCI during 1998 and 2017.Finally,the similarities between the two journals were calculated.The co-occurrence keywords of two journal articles were analyzed.[Result/Conclusion]The result showed that there were certain fluctuations in the similarities between the two journals.However,the overall trend was a downward trend.This showed that the similarities of the papers published in the two journals were declining,and the differences were increasing.

〔Key words〕keywords;journal similarity;TF-IDF;cosine similarity;co-words network;academic journal

《科学技术报告、学位论文和学术论文的编写格式(国家标准GB7713-87)》中明确指出,关键词是为了文献标引工作从报告、论文中选取出来用以表示全文主题内容信息款目的单词或术语。每篇报告、论文选取3~8个关键词。学术论文的关键词与论文的题目一起构成了学术论文的“眼睛”,构成了阅读者对一篇论文的直观的学术印象。学术论文关键词是提升学术期刊影响力的“助推器”[1]。许多学者通过论文关键词展开了学科研究热点[2]、主题演变[3]和学科交叉[4]等方面的相关研究。刘萍等[5]利用作者关键词共现网络,基于SimRank研究了作者相似度。从文献检索结果看,国内学者对期刊相似度的研究还较少。本文将通过研究期刊相似度来分析学术期刊发文的特点和规律,为期刊分类和期刊评价等方面的学术研究和实际工作提供参考。

2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于关键词的期刊发文的相似性测度研究Nov.,2018Vol38No111研究方法

论文关键词在一定程度上可以反映出论文研究主题、研究方法、数据源或研究背景等内容的。从刘萍等[6]、吴夙慧等[7]的综述看,词汇相似度研究作为自然语言处理中一项基础性研究,被广泛应用于机器翻译、文本智能检索、自动问答系统、文档分类和聚类等方面。本研究的逻辑基础是,如果两种期刊共現的关键词越多,那么可以认为这两种期刊发文在研究主题等方面越接近,它们的相似性越高。

为了能够定量分析两种期刊的相似性,本文提出两种计算方法来测度。

11共现关键词算法

假设期刊A在某年发表的论文共有关键词形成一个集合A={A1,A2,…,An};期刊B在某个的关键词集合为B={B1,B2,…,Bn}。那么两种期刊的相似性为:

(A∩B)/(A∪B)

即两种期刊中同时出现的关键词个数除以所有的关键词个数。如果这个值越大,它们越相似。这种方法仅考虑了两种期刊同时出现的关键词个数,没有考虑同时出现的关键词的次数及两种期刊关键词总数的规模等因素,其计算结果有一定的局限性。

12TF-IDF和余弦相似性算法

TF-IDF是Salton等[8]在1988年提出的一种词频统计方法。该方法主要用于评估词语对于文档集或语料库中文本的重要程度。词频(TF)表示特定词在文档中出现的频率。逆文档频率(IDF)用来评价词语对于语料库的普遍性。TF-IDF值由TF值乘以TDF值得到。余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。武永亮等[9]基于TF-IDF和余弦相似度研究了文本分类方法。蒋永新等[10]利用TF-IDF分析了图书情报学核心期刊学科特征。本文则结合这两种方法来测度期刊的相似度。

TF-IDF和余弦相似性算法具体计算方法如下:

1)计算词频

考虑期刊发文数量的不同,为了便于不同期刊的比较,进行“词频”标准化。其计算方法为:词频(TF)=某个词在期刊某时间窗口所有论文中出现的次数/该期刊某时间窗口的关键词总数。

2)计算逆文档频率

逆文档频率(IDF)=LOG(期刊的文档总数/(包含该词的论文数量+1))

如果一个词越常见,那么分母就越大,逆文档频率就越接近于为0,分母之所以加1,是为避免分母为0(即某期刊的论文中都不包含该词)。

3)计算TF-IDF

TF-IDF=词频(TF)*逆文档频率(IDF)

TF-IDF与一个词在论文中出现的次数成正比,与该词在整个数据集合中的出现次数成反比。

4)计算期刊的相似度

余弦相似度计算如公式(1)。在公式中,Ai代表期刊A论文中的一个关键词,Bi代表期刊B论文中的一个关键词。一种期刊由一个向量表示,该向量由出现在期刊的关键词组成,每个关键词代表一个维度,其各个维度上的值对应于该词项的TF-IDF值。由于一个词的TF-IDF权不能为负数,所以这两种期刊的余弦相似度范围是从0~1。

similarity=cos(θ)=A·BAB=∑ni=1Ai×Bi∑ni=1(Ai)2×∑ni=1(Bi)2(1)

2数据来源

21研究对象的选择及数据获取

本文选择《中国图书馆学报》和《情报学报》为研究对象。因为它们是国内图书馆学和情报学领域最具代表性的学术期刊。国内不少学者曾以这两种期刊为实证对象进行过一系列相关研究。如赵忠伟等[11]以《情报学报》和《中国图书馆学报》为例,分析了我国图书情报领域近十年科研论文研究方法的演化。邱武等[12-13]从不同角度对两种期刊做过比较研究。

从数据的权威性、准确性、规范性和数据的可获取性等方面综合考虑,本文以CSSCI为数据源,下载中两种期刊1998-2017年的相关数据。然后利用EXCEL等工具对数据进行了结构化处理。

22两种期期刊发文量及关键词分布

从1998-2017年期间,《中国图书馆学报》总的发文量是2 199篇,关键词总数为8 975个,篇均关键词数量约为408个,去重后的关键词个数为4 863个。《情报学报》的发文量是2 532个,关键词总数为10 591个,篇均关键词约为418个,去重后关键词个数为6 066个。

从图1看,2006年及以前,《中国图书馆学报》的发文量略高于《情报学报》;2007年和2008年,两种期刊的发文量基本相同;2009年开始《中国图书馆学报》的发文量出现了一个较大幅度的下降。由于两种期刊的篇均关键词数量基本相当,那么,期刊发文量的变化直接导致关键词的数量也会发生相应的变化。结合图2看,两种期刊关键词数量的年度分布的变化趋势与其发文量是一致的。

3数据分析

31两种期刊的相似度计算结果

从图3和图4看,两种相似度算法的计算结果都呈现图1《情报学报》和《中国图书馆学报》发文量的分布情况

为一个不断波动,但整体下降的趋势。这种变化趋势反映了两种期刊发文的相似性在不断下降。对比图3和图4还可以发现,两张图中,2001年、2011年和2017年与前一年的相似度变化有一定差异。图3中是2001年、2011年与2000年和2010年相比是下降趋势,而图4中是上升趋势。图3中2017年与2016年相比是上升趋势,而图4中是下降趋势。这反映出两种相似度计算方法总体上差异不大,只是在个别年份有一定的差异。这也表明两种计算方法虽然有差异,但其计算结果还是有非常高的一致性。从期刊相似度的绝对数值看,TF-IDF和余弦相似性算法的变化幅度更大,其对两种期刊的相似性测度结果更加敏感。图3共现关键词算法的期刊相似度

32共现关键词分析

从图5看,两种期刊上发表论文的关键词个数,从1999-2002年是一个不断上升的趋势;从2003-2011年期间基本是一个下降趋势;2013-2017年期间,关键词的个数基本保持在20个左右。

本文将两种期刊论文中同时出现的关键词分为:数据源、研究背景、研究范围、研究方法和研究主题共5种类型。从表1看,同时出现最多的是反映研究主题的关键词(篇幅所限,仅列出了10次以上的关键词),排在前5位的分别是数字图书馆、信息服务、信息检索、知识管理和圖图4TF-IDF和余弦相似性算法的期刊相似度

书馆学。其次是表示研究方法的关键词,排在前5位的分别是引文分析、社会网络分析、共词分析、比较研究和实证研究。其它3种类型的关键词数量较少。

结合原始数据看,同时出现频次排在前5位的关键词中,《中国图书馆学报》论文中,数字图书馆、信息服务和图书馆学的次数明显多于《情报学报》,而《情报学报》论文中,信息检索和知识管理要多于《中国图书馆学报》。这从一定程度上反映出,两种期刊上虽然同时出现了一些关键词,但还是各自有所侧重。这种关键词数量上的差异是两种期刊发文主题差异性的表现。

4研究结论

通过期刊相似度可以将相似性较大的期刊归为一类,将相似性较小的期刊区别开,这对于实现学术期刊的分类评价有一定的理论价值和现实意义。本文提出的两种期刊相似性测度方法虽然计算方法不同,但最终的计算结果非常接近。通过实证结果看,《中国图书馆学报》和《情报学报》的相似度在不断下降。这一方面可能是由于国内图书馆学和情报学两个领域研究主题的差异在不断增加,导致两种期刊的差异性不断增加,两个领域研究的边界更加清晰;另一方面,从发文量看,《中国图书馆学报》近年来的发文量有一个快速下降,基本保持在50~60篇左右,而《情报学报》的发文量基本保持在130~140篇左右。这两种期刊发文量上的差异,也是形成两种期刊相似性减小的重要因素。

本研究是基于关键词的期刊相似性测度,其测度结果的准确性依赖于论文关键词的质量。从文献[1,14-15]的分析看,目前国内期刊论文的关键词是由作者给定的,每个作者对论文关键词的理解程度不同,所给出的关键词存在漏选或泛选、用词不规范、选词数量随意等问题。这些问题都可能会影响到最终的论文关键词质量。今后,可以综合考虑论文标题、摘要或全文的信息基于词语信息研究期刊的相似性。另外,除了从论文关键词的角度外,还可以结合论文作者信息、关键词共词网络、论文耦合、共引或共被引等视角来研究期刊的相似性。

参考文献

[1]章诚,张爱梅,周丽娟.画龙点睛:学术论文关键词的科学选取[J].编辑之友,2015,(9):73-76.

[2]王兰敬.2004-2009年我国图书馆、情报与档案管理学科的研究热点与重点领域——基于CSSCI来源文献关键词的分析[J].图书情报工作,2011,55(16):68-71,139.

[3]魏瑞斌.学术期刊发文主题演变的实证研究——以《情报学报》为例[J].情报杂志,2013,32(6):64-69,39.

[4]闵超,孙建军.基于关键词交集的学科交叉研究热点分析——以图书情报学和新闻传播学为例[J].情报杂志,2014,33(5):76-82.

[5]刘萍,黄纯万.基于SimRank的作者相似度计算[J].情报理论与实践,2015,38(6):109-114.

[6]刘萍,陈烨.词汇相似度研究进展综述[J].现代图书情报技术,2012,(Z1):82-89.

[7]吴夙慧,成颖,郑彦宁,等.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627.

[8]Salton G,Buckley C.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing & Management,1988,24(5):513-523.

[9]武永亮,赵书良,李长镜,等.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31(5):138-145.

[10]蒋永新,孙爱莉.基于TF-IDF方法的图情学核心期刊学科特征分析[J].情报资料工作,2009,(1):89-92.

[11]赵忠伟,黄永,程齐凯,等.我国图书情报领域近十年科研论文研究方法的演化分析——以《情报学报》和《中国图书馆学报》为例[J].信息资源管理学报,2017,7(3):106-113.

[12]邱武,赵世华,丘峰.《中国图书馆学报》与《情报学报》的比较研究(下)[J].图书馆杂志,1996,(5):15-17.

[13]邱武,赵世华,丘峰.《中国图书馆学报》与《情报学报》的比较研究(上)[J].图书馆杂志,1996,(4):9-12,21.

[14]程智强,江洪涛.科技论文关键词标引应琢磨的几个问题[J].编辑学报,2014,26(1):40-42.

[15]王丹丹.科技论文关键词使用中存在的问题及解决方法[J].出版发行研究,2013,(4):102-104.

(责任编辑:郭沫含)2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期D&M;信息系统成功模型的应用与展望Nov.,2018Vol38No11

收稿日期:2018-08-12

猜你喜欢

情报学余弦图书馆学
开放与融合:公安情报学进入情报学方式研究*
构建中国特色的情报学
两个含余弦函数的三角母不等式及其推论
分数阶余弦变换的卷积定理
图像压缩感知在分数阶Fourier域、分数阶余弦域的性能比较
离散余弦小波包变换及语音信号压缩感知
寂寞与喧嚣:当代图书馆学研究现状剖析
中国图书馆学之当下:反思与瞻望
数据挖掘技术在情报学领域的应用
知识管理视域下的图书情报学研究