学术文本关键词语义功能数据集构建与分析
——以Journal of Informetrics 为例*
2019-07-29刘智锋程齐凯
刘智锋,李 信,程齐凯,陆 伟
0 引言
近年来,随着科学研究的快速进展,产生的科学知识迅速增加,表现为学术论文指数暴涨[1],科研工作者如何在海量的学术论文中获得所需要的论文以及从中发现研究热点、发展趋势以满足科研过程中的信息需求,变得更加困难。学术论文的关键词作为学术论文内容的高度概括,对关键词的研究有助于解决上述问题。经调研发现,当前图书情报等相关领域的学者针对学术论文的关键词研究主要集中在关键词词频分析、关键词共现分析、基于关键词匹配的信息检索、引文推荐等,这些研究只是基于关键词是否出现进行简单的统计分析以及匹配,尚未从关键词的语义层面来考虑,可能导致分析或匹配结果出现偏差,难以满足科研工作者的信息需求。
事实上,作者选择关键词时有其目的性,其选择的关键词通常用于标明研究所属的范围、研究的对象,揭示研究主题,描述研究所使用的方法等,即关键词在学术论文中起到一定的语义功能;对关键词语义功能的研究,能够将其应用于信息计量、信息检索以及引文推荐等领域,以更好地满足科研工作者的信息需求。然而,关键词的语义功能很少受到关注,目前业界主要有胡昌平等将科技论文关键词语义类型特征分为研究主题、所属领域、限定范围、理论方法以及子知识点,并据此对少量关键词进行人工标注,探讨关键词语义类型特征对共词分析的影响[2];刘自强等将我国图书情报领域大数据研究的学术论文的关键词分为研究主题、研究方法以及研究工具和技术,并对少量的核心关键词进行人工标注,同时结合社区发现算法等,多维度地研究图书情报领域大数据的动态演化过程[3-4]。综上可知,目前有关关键词语义功能研究领域还存在一些不足:首先,学术界还未对学术文本关键词语义功能分类达成一致;其次,缺乏支持关键词语义功能研究的标准数据集,无法支撑关键词语义功能的自动识别等相关研究;最后,关键词语义功能在信息计量学等领域的应用研究不足。
基于此,本研究尝试通过文献调研与数据集调研制定信息计量学领域学术文本关键词语义功能分类框架,并据此对Journal of Informetrics中的关键词进行标注,以构建标注数据集,为后续学术文本语义分析和理解研究提供分类框架及数据支撑;然后,对该语义功能标注数据集的语义功能分布特征进行揭示;同时,从语义功能的视角出发,对不同语义功能的关键词进行内容分析,以细粒度地揭示信息计量学领域的研究现状,为该数据集的应用作初步的探索。
1 相关研究
1.1 学术文本词汇语义功能分类相关研究
学术文本的词汇语义功能从语义层面对词汇进行认知与理解,指的是词汇在学术文本上下文环境下所对应的内容或用途,其不同于自然语言处理领域的语义角色,语义角色包含核心语义角色(如施事、受事等)和附属语义角色(如时间、地点、方式、原因)[5],而学术文本的词汇语义功能一般可以分为研究主题、研究方法、理论模型、指标等。
近十年来,国内外学者针对学术文本的词汇语义功能的研究取得一定的进展。不同学者依据不同的研究目的,产生了不同的词汇语义功能分类框架。比如,Kondo T 等对文献的标题进行分析,将标题中的词汇语义功能分为研究主题、研究方法、研究目的和其他四类[6]。在此基础上,Nanba H 等又将标题以及摘要中的词汇语义功能分为技术和效果两类,其中技术包含研究中使用的算法、工具、材料以及数据,效果由属性以及属性值组成[7]。随后,Gupta S 等将摘要中的词汇语义功能分为话题、技术和领域,话题指的是该文章的主要贡献,技术包含采用的方法和工具,领域指的是文章的应用领域[8]。Augenstein I 等将词汇语义功能分为过程、任务和原材料,过程包含研究采用的方法和设备,任务指的是研究的问题或主题,原材料则包含语料库和物理材料[9]。Tsai C T 等将词汇语义功能分为技术与应用,如“ We apply support vector machine on text classification”中,“support vector machine”代表技术,“text classification”代表应用[10]。Dan S等将计算语言学领域学术文本词汇的语义功能分为领域和技术,其中的领域有机器翻译、信息抽取、自动问答等[11]。Siddiqui T 等将学术文本中的词汇语义功能分为技术、应用、评价指标以及数据集四类[12]。Mesbah S 等将与数据处理相关的学术文本的词汇语义功能分为数据集、方法、软件、目标和结果[13]。Heffernan K 等把科学研究看成是提出问题以及解决问题的过程,将词汇语义功能分为研究问题和研究方法[14]。程齐凯基于学术文本词汇功能显现机理构建了一个领域无关词汇功能和领域相关词汇功能相结合的学术文本词汇功能框架,其中领域无关词汇功能框架主要包含方法和问题两个维度,领域相关词汇功能框架中就计算机学科、数学学科和社会科学学科三个领域的学术文本词汇功能进行简单的列举[15]。王芳等先对《情报学报》发表的论文中理论和方法进行人工标注,以研究我国情报学领域理论和方法的应用情况[16-18],随后将学术论文中理论术语看成是一种特定类型的命名实体,分别使用条件随机场和深度学习模型对学术论文的标题和摘要中理论术语进行识别[19-20]。章成志等对论文中的十大数据挖掘算法句进行提取与标注,并从提及论文数、总提及次数、提及位置、使用年代以及使用动机等方面,对不同算法的影响力进行比较分析[21-22]。此外,国际语义测评任务SemEval 2017 Task 10 致力于解决如何从计算机、材料学以及物理学等领域的论文中自动抽取关键词、关键词的类型及其它们之间的关系,其中涉及到的主要类型有任务(Task)、过程(Process)以及材料(Materials)等[23]。
可见,不同学者针对学术文本不同的部分制定不同的词汇语义功能分类框架,然而首先它们都只是针对特定的研究目的来构建词汇语义功能分类框架,导致分类框架不够完整;其次,学者们对不同的词汇语义功能的内涵理解不同,从而分类框架并未达成一致;此外,较少针对学术文本的关键词构建词汇语义功能分类框架,因此,笔者拟借鉴上述词汇语义功能分类框架,同时结合对数据集的调研结果,构建更加完整的信息计量学领域学术文本关键词语义功能分类框架,为关键词语义功能的相关研究奠定基础。
1.2 功能标注与一致性检验
目前关于词汇语义功能自动标注,主要采用基于规则提取和基于机器学习的方法。基于规则提取,只能针对具有一定结构特征的文本,如标题等,推广性差;基于机器学习的方法,主要针对学术文本的标题和摘要,而且准确率不高。因此,本研究拟采用人工对学术文本关键词进行语义功能标注。当人工标注数据时,需要遵循规范的流程,并对标注的结果进行恰当的检验,以保证数据集的可信度。不同的学者应用不同的方法进行数据标注以及标注结果检验。Simone Teufel 等对学术文本的引文功能进行标注时,先抽取一定数量的引文,三个人分别独立进行标注,然后使用kappa 系数对引文功能分类框架的信度进行检验[24]。Heting Chu 在使用内容分析法分析图书情报领域的研究方法时,对论文中的研究方法进行编码之后,随机抽取30篇论文由另一个人编码,统计两个人的编码一致性,一致性达到86.7%,一般认为达到80%以上即为可接受的[25]。Philip Hider 等在研究图书情报领域中实证研究方法时,采用两人同时对论文的研究方法进行标注,最后统计两个人的标注结果的一致率,一致率达到80%以上,同时使用Cohen’s kappa coefficient 来检验不同分类变量的合理性[26]。Mengnan Zhao 等对论文全文中有关数据的提及与引用进行标注时,先随机选取一部分数据集进行标注来完善标注框架,其次,依照完整的框架,由两个具有专业背景的研究人员对随机选取的50 篇论文进行标注,其Cohen’s kappa coefficient 达到0.86,说明其中一个人已经足够完成接下去的所有文章的标注[27]。借鉴上述的相关研究,本文拟使用kappa 系数进行数据标注结果检验。
2 学术文本关键词语义功能定义
学术论文是学者研究成果的主要载体之一,是学术交流的主要媒介,其中主要包含某个研究的研究背景、研究对象、研究问题、理论基础、研究方法、工具以及研究结论等内容。为了方便研究人员对学术论文内容的理解以及满足学术论文检索等需求,大部分期刊要求作者提供学术论文的关键词。一般而言,学术论文的关键词是作者对学术论文的全文进行浓缩提炼的结晶,能够很好地反应学术论文的内容,其具有丰富的语义信息,即具有不同的语义功能,因此本文认为学术文本关键词语义功能是指从语义角度对关键词进行认知与理解,是其在学术文本环境下所对应的内容或者用途[15]。
本文中的关键词语义功能不同于一般的词汇语义,虽然两者都是从语义层面对词汇进行认知与理解,但是关键词语义功能侧重于学术文本的环境下,关键词在学术文本中所起的作用,如研究主题、研究方法等。此外,与本文的关键词语义功能相关的概念还有词汇功能语法以及语义角色。词汇功能语法是从语法以及心理学层面对语言进行分析,用于解释语言习得的机制;语义角色属于自然语言处理领域,其一般包含有时间,地点等,因而,两者与关键词语义功能具有本质区别[15]。
举2 篇论文说明上述语义功能。如图1所示,该论文有三个关键词为Scientometrics、Public research institutes 和 Scientific performance;从论文标题、摘要可知,提出了一种新的指标来评价公共科研机构的绩效,其中该论文的研究属于科学计量学领域,关键词Scientometrics 在该论文中的语义功能为研究范围,相应的标注为领域范围;该研究评价的对象为公共科研机构,关键词Public research institutes 在该论文的语义功能为研究对象,相应的标注为研究对象;该研究的主题为公共科研机构绩效的评价,关键词Scientific performance 在该论文的语义功能为研究主题,则标注为研究主题。如图2所示,该论文研究全球不同国家的科研产出对经济增长的影响;关键词Research output 和Economic growth 分别标注为研究主题;示例论文2 的研究属于科学计量学范围,关键词Scientometrics标注为领域范围;此外,本研究中使用了系统GMM 估计的方法对学术产出和国家经济相关的面板数据进行相关性分析;因此,关键词Panel data 标注为数据,System GMM estimates 标注为研究方法。需要注意的是,同一个关键词在不同的学术文本中可能具有不同的语义功能;不同的关键词在同一学术文本中,可能具有相同的语义功能。
图1 示例论文1
图2 示例论文2
3 数据与方法
3.1 数据来源
本研究选取信息计量学领域影响因子最高的期刊Journal of Informetrics(IF=3.484)发表的论文作为标注的数据源;一方面,由于该期刊影响力较大,在信息计量学领域具有广泛的认可度;另一方面,该刊创办于2007年,样本数据能包含其自创刊以来的数据,因此,其发表的论文具有较好的代表性[28]。笔者通过手工方式从Journal of Informetrics 官网中获取2007-2017年刊载的每篇论文的链接、标题、摘要、关键词等数据,共获得842 篇论文的相关数据,剔除没有关键词的论文,最终剩下693 篇论文作为标注和分析的数据源,如表1所示。
表1 标注数据概览
3.2 研究方法
3.2.1 研究总体思路
本研究首先采用文献研究法对国内外词汇语义功能分类相关研究进行分析,同时对数据集进行调研,结合信息计量学领域的研究特性,制定面向信息计量学领域的学术论文关键词语义功能分类框架;其次,基于该分类框架,先随机抽取10%的论文由两个图书情报专业的研究生分别进行独立标注,之后使用kappa 系数对两个人的标注一致性进行检验,标注不同的地方通过协商达到一致,当一致性检验通过后,剩下的论文由其中的一个人进行标注;最后,笔者对该标注数据集的特征进行描述性分析,同时使用词频分析法以及内容分析法对关键词语义功能视角下的信息计量学领域的研究现状进行分析。
3.2.2 学术文本关键词语义功能分类框架
学术文本关键词语义功能分类框架是进行数据集构建的基础。程齐凯将学术文本词汇功能分为领域无关和领域相关,领域无关的词汇功能分为研究问题和研究方法,而对于领域相关的词汇功能,由于不同领域的研究特性不同,会有不同的分类[15]。本文结合信息计量学领域的研究特性以及已有的词汇语义功能研究,构建了信息计量学领域学术文本关键词语义功能分类框架,包含领域范围、研究对象、研究主题、研究方法、数据以及其他共六类,具体如表2所示。
表2 信息计量学领域学术文本关键词语义功能分类框架
4 结果与分析
4.1 关键词语义功能分布
本研究先随机抽取69 篇(9.96%)论文,由两个人进行标注,最后计算kappa 系数,得kappa=0.83>0.8[32]。考虑到本研究标注任务的难度较大,说明该标注的一致性较好,可以接受。对标注完的数据集,使用Python 自编程序,将数据集中的关键词语义功能部分进行抽取与统计,结果如图3所示。具有研究主题语义功能的关键词最多,达到1353 个,占比40.85%,该类型的关键词能够对整篇论文的核心内容进行表达,符合作者提供论文关键词的意图,因此其占比达到最大;其次,具有研究方法语义功能的关键词排第二,为1131 个,占比34.15%,研究方法与研究主题两者共同构成一篇论文的核心内容,因此其数量也相对较多。研究主题和研究方法两者总的占比达到75%,占据了绝大部分;此外,表示数据语义功能的关键词最少,只占3.62%。
图3 JOI关键词语义功能分布
4.2 不同语义功能类别的关键词内容分析
本研究除了构建数据集,还通过对数据集进行分析,为该数据集的应用做初步的探索。具有不同语义功能的关键词的集合能够从不同的方面反映一个领域的研究现状。笔者选取研究主题、研究方法以及数据共三个维度,对不同语义功能分类下的关键词进行内容分析,从而细粒度地揭示信息计量学领域的研究现状。
4.2.1 研究主题关键词的内容分析
某个领域的研究主题是科研人员关注的重点。信息计量学领域学者针对不同的研究对象,产生了多样化的研究主题。笔者对具有研究主题语义功能的关键词(如图4所示)进行分析,并将其归为不同的类,从而得到不同的研究主题。
(1)计量指标(特别是h 指数与影响因子)。bibliometric indicators、 h-index以及impact factor 等表示了计量指标的研究,尤其是h 指数以及影响因子。比如,Alonso 等介绍了h 指数和基于h 指数衍生出的新的指标以及这些指标的计算方法,此外还探讨了标准化的方法,使得来自不同学科领域的学者的h 指数更具可比性[33]。Sicilia M A 等以计算机领域的期刊为例,研究了基于web of science 计算的期刊影响因子和基于scopus 计算的期刊影响因子的关系,发现它们具有高度相关性,可用于指导期刊影响因子的计算[34]。可见,相关学者在已有的h 指数、影响因子等指标的基础上不断探索更加科学的计量指标;同时对这些指标应用于科学评价的合理性与适用性进行了研究。
(2)科学评价及排名。research evaluation、research performance、 evaluation、 peer review、 productivity、 scientific productivity、research productivity、ranking、journal ranking等反映了科学评价及排名相关研究主题,包含科研成果评价、期刊评价以及基于评价结果,对期刊、科研人员、研究机构等进行排名。Impact Factor (2-and 5-year), SJR, IPP,SNIP, H index 和 Article Influence Score 等期刊排名的指标进行比较[35]。Giovanni Abramo 等应用某个研究机构中科学家平均的高被引论文数来对研究机构进行排名[36]。学者们从不同的角度出发,产生的科学评价的方法不断增加,为政府等相关部门科技政策的制定、基金的资助等提供了有力的支撑。
(3)科研合作。collaboration、co-authorship以及scientific collaboration 等反映了关于科研合作的研究。随着研究地不断深入,研究的问题更加复杂,单靠个人无法完成,科研合作现象越发普遍,信息计量学领域学者对该现象从不同角度进行研究。如Erjia Yan 等通过对合作网络演化进行分析,并从作者、研究机构以及国家三个层面来预测未来可能的合作,并对此进行推荐[37]。而GiovanniAbramo 等则研究不同性别的科研合作模式[38]。针对科研合作的研究,能够促进个体、研究机构等不同层面进行更好地合作,提高科研产出成果。
(4)引用分析。citations、citation impact、citation distribution、 citation analysis、 normalization 以及field normalization 等表示了关于引用分析的研究,主要包含了引文分布的研究、基于引文的分析方法研究以及引文分析方法使用过程中的学科或领域等标准化问题,以保证引文分析的科学性。如Mike Thelwall 等使用幂律分布、对数正态分布等不同的分布对某个学科或某一年的引文分布进行建模,并对这些分布的拟合情况进行比较[39]。Giacomo Vaccario 等对来自微软学术的大型引文数据进行分析,发现传统的基于引文分析的方法、指标应用于排名时存在偏倚,并基于z-score 提出标准化的方法来减少排名的偏倚[40]。由此可知,引文分析的模型得到不断创新,引文分析的方法得到不断完善。
除上面四大研究主题之外还存在其他的研究主题。interdisciplinarity 表明跨学科研究;gender differences 反映了该领域关注科研人员性别差异的影响;knowledge diffusion 表示了基于引用的知识扩散研究。
图4 具有研究主题语义功能的高频关键词
综上所述,目前信息计量学领域主要的研究主题包含有计量指标(特别是h 指数与影响因子)、科学评价及排名、科研合作、引用分析,共四类;其中科研合作这个主题与王伟等发现的科研协作网是信息计量学的主要研究主题之一相似,都反映了科研合作化趋势的增强,其中出现的一些科研合作的特征以及规律等已经得到信息计量学领域相关学者的深入研究[41];h 指数与影响因子、科学评价及排名和引用分析这三个研究主题与刘丽敏和王晴的研究发现的信息计量学领域的主题引文分析、h 指数、影响因子、研究评价(绩效评估)基本吻合[42],反映了这些主题是这个领域的核心研究主题,相对稳定。
4.2.2 研究方法关键词的内容分析
研究方法在一个学科的知识体系中具有重要的地位。随着信息计量学学科的发展,其自身具有特色的研究方法不断增加,同时不断借鉴其他学科的研究方法,将其应用于本学科。如图5所示,主要包含有指标、引文分析法、内容分析法、文本挖掘与可视化、复杂网络分析、模型与算法以及理论与定律等。
(1)指标。包含有 h-index、impact factor、g-index、 citation window、 gini coefficient、r-index、percentiles、fss 以及 crown indicator。由此可知,h-index、impact factor 等指标不仅是重要的研究主题,而且也作为一种重要的评价手段在信息计量学领域得到广泛应用,如h-index、 impact factor、 g-index、 r-index、percentiles 以及crown indicator 等经常用来评价期刊、作者以及机构等的影响力[43]。citation window 表示引用窗口,不同的引用窗口影响了影响因子等各种基于此的计量指标的值,从而会影响评价对象的排名;gini coefficient 来源于经济学领域,用于衡量一个国家或地区的居民收入差距的指标,信息计量学领域学者将其应用于基金资助分布、引文分布等的不平等性的衡量,如Jiang Wu 使用基尼系数衡量了中国自然科学基金资助的机构和学科分布的不平等现象[44]。
(2)引文分析法。包含有citation analysis、bibliographic coupling。引文分析方法具有多种用途。首先,基于引文数量分析,可以用于评价期刊和论文;其次,基于引文网络分析,可以揭示科学结构,也可以应用于学科相关度以及文献检索等研究。比如,Yu Xiao 等构建引文网络,同时结合网络分析,来研究知识扩散结构[45]。此外,引文耦合分析作为重要的引文分析方法之一,也得到较多的关注,其可以用于揭示科学文献的内在联系与规律。如Dar-ZenChen 等采用文献耦合的方法来识别专利文献中缺失的相关链接,从而构建一个完整的引文网络[46]。由此可见,引文分析方法作为信息计量学领域经典的方法得到广泛的应用。
(3)内容分析法。包含有content analysis。内容分析法本质是对文献等传播媒介中的所含的信息量及其变化进行分析,信息计量学领域学者主要将其用于学术文本内容的定量分析。比如,Kai Li 应用内容分析法对R 工具包在PLoS 论文中被引用的情况进行分析[47]。同时,随着自然语言处理技术的快速发展,引文内容分析得到了学者们的更多关注,涉及到引文主题、引文情感等语义层次的分析[48]。比如,Ha JinKim 等在以往作者共引分析中加入对引用内容的分析,以判断不同作者研究主题的关联性[49]。
(4)文本挖掘与可视化分析。包含有cluster analysis、visualization、text mining、machine learning。其中,聚类分析主要应用于文本主题的挖掘;可视化分析方法将研究结果直观地展示出来,有利于加深对研究结果的理解。比如,Yoo KyungJeong 等使用主题建模的技术进行抗胰腺癌药物聚类分析,并通过药物与靶点网络分析来跟踪药物靶点的变化,为抗胰腺癌的新药研究提供参考[50]。随着人工智能技术的不断发展,作为人工智能重要的技术之一机器学习也逐渐被应用于信息计量学领域。比如,Min Song 等将随机森林、C4.5、KNN 以及SVM 应用于作者姓名消歧,取得比混合编辑距离模型更好的结果[51]。在学术大数据时代,产生了海量的学术文本数据,文本挖掘与可视化方法将得到更广泛的应用。
(5)复杂网络分析。包含有network analysis、social network analysis、 citation network、networks。社会网络分析法是对社会网络中行动者之间的关系进行量化研究的重要方法[52],信息计量学领域学者将其应用于引文网络、合作网络、机构的网络、作者的网络等的分析。比如,Oguz Cimenler 等应用社会网络分析方法对南佛罗里达大学工程学院的100 名终身教职的基于论文、提案以及专利的合作网络进行分析,来评估合作的情况[53]。
(6)模型与算法。包含有pagerank、stochastic model。pagerank 算法主要应用于作者网络、论文网络、机构网络等不同网络的结构的研究,从而可对作者、论文和机构等进行排序,如Michal Nykl 等使用pagerank 算法及其变型来研究作者的引文网络,从而对作者进行排序[54]。此外,应用较多的模型主要为随机过程模型,如Quentin L.Burrell 提出了一种简单随机模型模拟作者论文的出版和被引的过程,来研究作者职业生涯、引文率等与作者的h 指数之间的关系[55]。可见,模型常被信息计量学领域的学者用于对科学交流活动中的某些现象的拟合与解释。
(7)理论与定律。包含有hooked power law、matthew effect、 zipf’s law、 lotka’s law、entropy、 discretised lognormal distribution、lorenz curve。主要有文献计量学的经典定律、信息学领域的熵、社会学领域的马太效应以及洛伦兹曲线。奇普夫定律和洛特卡定律属于文献计量学领域的经典定律,得到广泛的应用。比如,等使用齐普夫定律和对数正态分布来测量不同学科和机构的科研产出[56];而幂律则常被信息学领域学者用于引文分布等的研究。此外,马太效应作为一种普遍的社会现象,也得到信息计量学领域学者的关注,将马太效应用来解释作者论文被引过程中的某些现象等[57]。
图5 具有研究方法语义功能的高频关键词
由上述的分析可知,信息计量学领域的研究方法不断丰富。对指标、模型、算法、理论等而言,信息计量学领域都不仅使用本领域的,同时也在不断借鉴和吸收其他领域的研究方法,反映了信息计量学领域的研究具有多学科交叉属性,也是情报学作为一个计算机科学、社会科学等多学科交叉学科的一个具体表现[58]。
4.2.3 数据关键词的内容分析
信息计量学领域大部分研究是基于数据驱动的,随着信息技术的不断发展,产生的数据量以及数据的种类不断增加,如何充分利用这些多源异构数据,给信息计量学领域的研究带来了机遇与挑战。对具有数据语义功能的关键词词频进行统计(如图6所示),可以一定程度上了解信息计量学领域相关研究所使用的数据来源以及数据种类。
图6 具有数据语义功能的高频关键词
由图6可知,信息计量学领域的数据来源有引文数据库、学术搜索引擎,此外,随着替代计量学的快速发展,学术社交网络平台以及用于替代计量学的数据库也成为了信息计量学领域的重要数据来源。其中,引文数据库包含有web of science、 scopus、 science citation index、pubmed 等;搜索引擎主要有google scholar、academic search engines 等;学术社交网络平台以及替代计量学相关的数据库主要有mendeley、f1000 等。从这些数据源获取的数据主要包含了论文的元数据、论文的引用数据、论文的使用数据如论文的下载数据、浏览数据等以及论文的替代计量数据。从中可见,随着移动互联网以及社交媒体的兴起,该领域的数据来源以及数据类型不断丰富;同时,本研究发现的该领域的主要三大数据来源:引文数据库、搜索引擎以及学术社交网络平台,与王贤文等总结归纳的四大数据对象即发文数据、引用数据、使用数据以及替代计量数据相对应[59],说明虽然具有数据语义功能的关键词数量不多,但是能够较好地覆盖各种数据类型。
5 总结与展望
本研究从学术文本关键词语义功能视角出发,构建了信息计量学领域关键词语义功能分类框架,同时基于该框架,构建了关键词语义功能标注数据集,具有一定的理论和应用价值;对该标注数据集进行分析,揭示了关键词语义功能分布特征,同时能够比较系统地揭示信息计量学领域的研究现状,帮助该领域的相关学者与部门进行科研选题以及管理决策,提供了该数据集在研究热点等领域应用的一些思路。
本研究也存在一定的不足:一方面,每篇期刊论文的关键词数量有限,同时不同作者具有不同的关键词标注行为,可能导致部分论文的关键词不具有代表性;另一方面,由于关键词语义功能的标注难度大,费时费力,只选取JOI 期刊的论文关键词作为标注样本,样本比较有限;今后,将探索关键词语义功能的自动标注,从而可以扩大标注的样本量,构建更大规模的语义功能标注数据集;此外,将进一步探索该数据集在学术检索、引文推荐以及信息计量学等相关领域的应用。