信息计量与科学评价:新时期、新需求、新发展
——青年学者论坛综述*
2021-04-14杨思洛董嘉慧刘华玮
杨思洛,董嘉慧,刘华玮
0 引言
大数据、云计算、人工智能、深度学习及区块链等新技术的快速兴起与发展,给信息计量与科学评价理论研究和实践应用带来了新契机。而“除四唯”“破五唯”等相关国家政策和配套措施陆续出台,体现了国家对学术评价的重视。如何有效利用人工智能新技术、合理运用大数据方法来切实推进信息计量与科学评价改革与发展,是时代赋予的重要使命,也是社会提出的新要求和新需求。在此背景下,围绕着“信息计量与科学评价:新时期、新需求、新发展”的主题,2020年信息计量与科学评价青年学者论坛于6月20日在线上平台举办。本次论坛由武汉大学“信息计量与科学评价”青年学术团队、武汉大学中国科学评价研究中心、全国科学计量学与信息计量学专业委员会共同主办。论坛吸引了全国各地高校及科研机构的师生参与,聚焦了领域的青年才俊,共有13位青年学者进行精彩报告,展示了信息计量与科学评价领域的最新成果,主题新颖,内容前沿。我国文献计量学主要奠基人之一邱均平教授担任点评专家,分上下午两场进行了精彩点评。在交流讨论环节,与会人员互动频繁,就专家的精彩汇报进行热烈讨论,充分体现了线上会议的优势。
本文立足于论坛专家的主题报告,结合笔者对领域的思考和认知扩展性梳理相关研究成果。对于评价专场,从科学评价在新时期的发展、科学评价的未来走向两个方面进行剖析与述评;对于计量专场,主要分为信息计量在新时期的新特征、信息计量的新思考两个主要部分,揭示了新时期信息计量与科学评价研究的前沿进展及发展趋势。
1 科学评价在新时期的新发展
科学评价是一项系统工程,伴随着现代科技的快速发展与广泛应用,基于传统文献计量的定量评价和以同行评议制度为主的专家定性评价早已普遍应用于科技政策制定、信息资源管理等多个领域。在新的时代背景下,科学正进入崭新的阶段,以数据为导向的科学研究第四范式的出现彻底改变了科学研究的思维与方法,推动了科学交流和学科研究发展的转变[1]。科学评价不仅应包括科学价值本身,还应包括研究的社会和经济价值等[2]。这要求科学评价在新时期转变原有的发展模式,转向更加公平、公正、合理的评价;而开放新环境和新技术,使得科学评价的改进变得可能与可行。例如,荷兰提出的《标准评价框架 2009-2015》 (Standard Evaluation Protocol,2009-2015)中明确了学术评价不仅要评价学术成果的科技影响力,还要评价学术成果的社会影响力[3]。《旧金山科研评价宣言》就当前资助机构、科研机构等有关方面评价科研成果的方法存在的问题,提出要避免使用期刊影响因子来评价单篇论文以及研究者的个人研究贡献[4]。由同行制定并由同行进行的研究评价已成为常规,且依赖于度量标准,指标误用于评价科学绩效的情况越来越普遍。为改变定量指标误用的情形,《莱顿宣言》提出了定量评价应支持定性评价和专家评价等十项原则[5]。
1.1 实现全面评价的替代计量
开放获取运动的兴起和发展使得学者以及公众可以免费获取文献并进行自由传播,由此产生了新的知识生产和传播模式,替代计量学(Altmetrics)应运而生。相对于较为单一的引文指标,Altmetrics 涵盖了更多影响力因素[6]。例如,替代计量学在社交网络科研交流中的应用,为科研成果影响力评价提供了新的维度,能够测度多样化学术成果的影响力[2]。广义的替代计量学强调研究社交的变化,旨在用面向学术成果全面影响力的评价指标体系,替代传统片面依靠引文指标的定量科研评价体系,促进开放科学和在线科学交流的全面发展[7]。余厚强副教授在主题报告《Altmetrics指标在科技评价中的应用:机理与路径》中提出,Altmetrics指标用于科技评价的路径要考虑不同的目标以及理解替代计量指标用于科研评价的本质。研究发现,传统用于评价的数据引证仅能反映科学数据集使用的1.3%,不足以体现科学数据集的多元价值[8]。因此,仅考察学者的学术成果以及其在学术界的影响力是不够的。除此之外,替代计量指标在用于科研评价时应考虑不同的维度和指标的适用度。如图1所示,Mendeley、F1000Prime向学术研究聚焦,而Twitter、Facebook则向社交媒体聚焦。此外,Thelwall等的研究发现,谷歌专利引文和临床指南引文能清楚地反映社会影响力,其他社交媒体计量指标则无法实现[9]。
图1 聚焦Altmetrics指标特征:社交媒体和学术研究[10]
替代计量学已经成为信息计量学领域不可或缺的子领域。替代计量指标的情境数据受到空前重视,影响因素得到广泛研究。尽管替代计量学研究取得了很大进展,但是在其发展过程中仍然存在着很多问题。比如,替代计量指标并不能完全规避引文指标存在的问题、替代计量数据库的质量有待进一步完善等[11]。因此,在实践中使用Altmetrics指标应符合Responsible Metric的各项标准。随着研究的深入,少数Altmetrics指标性质逐渐明朗,大多数指标在解读上仍有待深入,而由于Altmetrics指标存在学术导向和非学术导向两大类,依据评价的目的不同,具体使用的路径也不同。解决这些问题,有助于替代计量学在未来更好地良性发展,也为替代计量学在科学评价中的全面应用奠定基础。
1.2 面向精准评价的全文本引文分析
引证是基本的学术行为,引文分析一直是科学评价的重要方法。随着开放获取运动的深入,结构化的全文数据越来越易得,依据全文数据可供分析的内容包括了章节、图表、致谢、引用和实体识别。借助全文本引文分析的方法,可从引用动机、引用强度和施引文献等角度进行全方位的评价。胡志刚副教授在报告《全文本时代的科学计量与学术评价》中提出基于引用行为的学术评价体系的构建。
引用行为显示了被引文献在施引文献中的引用位置、引用频次乃至引用情感,其中引用情感包括正面引用、中性引用和负面引用。通过机器学习等技术,可根据其引用特征和引文特征划分成6种不同维度的指标。这样在分析引用行为时不仅可以知道引用次数,还可以了解具体的核心引用得分、正面引用得分、权威他引得分、跨学科引用得分、经典引用得分以及方法类引用得分等不同维度的指标,并进行更精准的刻画。全文本引文分析需要全文本数据的支持,要求自然语言处理和文本挖掘等技术的配合。因此,开发智能的、有效的引文处理工具是未来全文本引文分析发展的重要内容[12]。
2 科学评价的未来走向
科学评价是科技管理工作的重要抓手,2018年中共中央办公厅、国务院办公厅印发了《关于深化项目评审、人才评价、机构评估改革的意见》,强调要深入推进项目评审、人才评价和机构评估改革[13]。2020年,教育部发布《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》,要求破除科技评价中的“唯论文”“唯SCI至上”等不良导向,分类评价科研成果,完善学术同行评价等措施,为未来的学术评价提供了正确的导向[14]。科技评价的根本目的是促进科学技术的发展、提高人才队伍素质、提升创新能力水平以及促进经济的发展。因此,科学评价需要理性的、科学的评价方案。
(1)评价指标使用的合理性。陈云伟研究员在主题报告《科技评价走出‘破’与‘立’困局的思考》中谈到,当前科技评价的复杂性在于创新主体维度存在层次性、科技领域维度存在特异型以及科研类型存在多样性;影响“研究质量”或“科研表现”的影响因素是多维度的,要科学理性地认识各类评价指标的问题。定性指标和定量指标在一定程度上能揭示科学家的学术贡献,但如何更加合理有效地利用指标对科学家进行评价是问题的关键。Moed指出评价指标具有多维度特征,当用论文量、被引量、期刊影响因子、替代计量指标等来评价个人和团队时,要意识到这些指标的局限,期刊影响因子的评价有效性尚缺
2.1 发展适应新时代的评价体系
乏足够的计量学证据,而针对科研人员个人的评价指标已被证明存在“虚假的精准性”[15]。对于替代计量指标,正如余厚强副教授在分析其用于评价的合理性时指出,衡量指标要捕捉到评价概念背后的实际情况,同时指标的变化要与衡量对象的惯性一致。科技评价是一个永恒的主题,但是在评价方法的选用方面、具体指标的优化方面,以及评价实践方面仍然有很长的路要走。
(2)作者贡献声明在学术评价中的应用。科学研究问题的综合性、复杂性和跨学科性日益突出,各学科之间不断交叉融合,科研合作已成为科学研究的主要趋势[16]。随着多作者、多机构合著论文的增多,原有的评价方式不适用于对多个作者或者多个机构的学术产出、学术信誉以及科研成果进行评价。丁敬达教授在其报告《贡献者角色分类(CRediT)在学术评价中的应用展望》中介绍了基于贡献者角色分类的作者贡献率测度方法,指出通过作者贡献声明可以明确作者的学术信誉和学术责任,提高作者研究贡献的透明度以及提高机构或科研资助者识别个体研究者的能力,其应用于学术评价方面的精准度及客观性较突出。随着作者贡献声明的不断推广与应用,信息处理技术和数字科研基础设施的快速发展,基于作者贡献声明的合著者贡献度测度方法将会在科学评价中得到重视和应用。
科学评价是一个循序渐进的过程,在审视现有评价体系不足的同时,要认识到其在评价之中发挥的正向作用,在此基础上进行改进,发展适应新时代的评价体系。陈云伟研究员指出,新时期的科学评价发展应把握科技评价治理的正确原则和理念;完善科技评价治理的政策制度体系,明确政府管理部门的职能定位,科学合理地使用科技评价指标。科学政策与研究评价,重点在“评价”,注重评价指标体系的构建,评价最终又为科学决策服务[17]。科学的评价体系未必需要固定的评价模式和指标,但一定要有符合科技评价的初心,才能包容创新,激发个人和团队的积极性,提升团队的凝聚力,在实现团队利益最大化的同时不淡化个人的贡献,促进机构和个人的进步。
2.2 科学评价的智能化
以数据为导向的科学第四范式的兴起,大数据、人工智能时代的到来,令科学评价正朝着智能化方向发展。互联网环境下,知识传播交流变得更为广泛,途径更为多样。Altmetrics指标弥补了传统计量评价的缺陷,能更好地评价学者及学术成果的社会影响力。全文本引文分析结合引用位置、引用强度和引用语境,从引用行为角度进行科学评价。多种内生性指标的运用而非简单的频次统计显示出科学评价正走向全面化和精准化[18]。学术影响力(Scientific Impact)是衡量科研成果与科研工作者等学术贡献和学术影响的指标,强调从影响力的角度评价科研产出的学术价值与科研主体的研究贡献以及其学术地位[19]。董克副教授在报告《学术影响力预测研究进展》中指出,当前学术影响力预测的方法体系主要有统计回归分析和机器学习两大类,其中机器学习方法体系更适用于大数据场景。在数据生产要素化、数据开放和数据共享的推动下,数据驱动的预测和评价将成为未来的焦点。因此,应综合社会认同、同行认同、专家认同、期刊认同等,及时反馈影响力情况。需要注意的是,在预测与评价过程中产生的“唯”很大程度上取决于管理需求,方法和技术的应用服务于管理的同时,也应当加强对管理的引导。
杨思洛教授指出,评价不能仅依赖于发表量和被引量已成为学界的共识,多源、多维计量指标的综合评价是大势所趋。其报告《人文社科成果国际影响力评价:问题与趋势》中,将人文社科成果国际影响力评价分为4个阶段:(1)2000年前的1.0时代,主要以引文指标为主;(2)2001-2010年的2.0时代,以网络计量学指标,特别是链接分析类指标为主要特色;(3)2011-2020年的3.0时代,结合Altmetric指标的更全面的影响力评价成为主流;(4)2021年以后为4.0时代,结合认知计算与人工智能指标,智能计量成为发展趋势。人文社科成果国际影响力评价未来将向横向广度发展的综合全面评价和纵向深度发展的智能精准评价发展。人工智能、自然语言处理、深度学习等技术在科学评价上显示了其内在优势,利用人工智能、认知计算、数据挖掘、语义网等新技术,分析、设计和实现智能评价系统构建,最终实现专家评议与文献计量、定性评价与定量评价、主观分析与客观统计、外在指标与内在指标、间接测度与直接测度相结合的智能化评价[19]。
3 信息计量在新时期的新特征
3.1 方法不断创新
大数据的环境下,信息计量的研究方法不断创新。传统的基于频次的引文分析转向基于内容的引文语义分析,替代计量指标也在不断改进和完善,如新兴的替代计量关注度得分(Altmetrics Attention Score, AAS)、 Alt 指 数 以 及 RG Score等。也有学者针对论文计数方法存在的问题提出新的计算方法,如介于全计数和分数计数之间的新的分数计数法[20]、基于贡献要素的合著者贡献率测度方法[17]等。科学知识图谱和社会网络分析的应用也拓宽了信息情报分析工作的视角,丰富了信息计量与科学评价的思路和解决方案[14]。科学学的研究反复表明,科学知识具有明显的累积性、继承性和连续性。任何新的知识或技术,都是在原有知识和技术的基础上分化、衍生出来的,都是对原有知识和技术的发展[21]。黄颖副教授作了主题报告《基于多代引文的单篇学术论文分类研究》,提出了基于多代引文的单篇学术论文分类方法。代际引文之间的学科分布具有相似性,并且可以提供更多的学科领域信息。多代引文分析(Multiple-generation Reference Analysis)基于单篇文章而不是期刊,可以同时对发表在多学科期刊上的论文进行分类,使用参考文献从而使得引用关系稳定,进而保证学科分类的稳定,在判别现有期刊分类的准确性、识别高交叉的研究论文以及辅助判定成果的学科归属上有潜在的应用价值。
网络环境推动了知识交流和知识传播模式的演变。科学活动交流日益频繁,引起诸多学者对网络环境下知识交流效率的测度和探讨。杨瑞仙副教授在报告《基于用户相似度的加权社会网络模型构建研究》中指出,学术虚拟社区成为研究人员所涉足的科研新场所,它有效弥补了科学交流系统中正式知识交流时效性、交互性等方面的不足,满足了新时代学术用户的知识交流需求[22]。为研究学术虚拟社区知识交流效率,构建知识交流网络模型,杨瑞仙副教授介绍了基于用户相似度的加权社会网络模型。社会科学领域的社会网络分析研究主要包括引文网络、合作网络和主题关联网络3个方面,而加权社会网络的权重设置为优化网络性质及功能提供了新的手段,为网络性质提供了一个新的维度。加权社会网络是社会网络分析方法的改良和优化,有助于提升信息计量与科技评价的水平。总体看来,信息计量在新时期是不断前进的,信息计量的研究方法正朝着不断更新、不断丰富、更加全面的方向发展。
3.2 研究内容不断深入
信息计量的研究内容不断深入,如引文分析、替代计量指标已日益广泛应用于多个学科领域。祝清松等以碳纳米管纤维研究领域的高被引论文为研究对象进行引文内容抽取和主题识别,发现基于引文内容识别的主题能较好地揭示被引原因(引用动机),在识别引文主题上也具有更好的代表性,能有效揭示被引文献的研究内容[23]。杨思洛等从文献计量学的历时分析角度,基于学科层面,分析和比较我国学者引证行为的变化特征。具体选择“中国引文数据库”中4个学科(哲学、图书情报、物理和机械工程)1994-2013年内896,645篇论文的引文数据进行分析[24]。有学者通过Altmetric.com,以生物医学领域的论文为研究对象,对论文发表之后在网络中分享、在各种文献管理软件中使用以及专家推荐等情况进行次数统计,并对这些分享、推荐等行为赋予权重,从而为一篇文章打分和排名[25]。侯剑华教授作了主题报告《专利睡美人问题——演化轨迹与识别方法》,就中国“石墨烯”专利领域的睡美人现象进行研究。科学文献睡美人是科学知识扩散(引文轨迹分布)的一种特殊现象,是科学发展不确定性的重要体现,研究睡美人现象,对挖掘特殊引文轨迹文献具有重要价值。研究发现,专利文献同样存在睡美人现象,并定义了4种专利苏醒类型:昙花一现型、豌豆公主型(早期渐变)、丑小鸭专利型和睡美人专利型。专利文献中睡美人特征的深入分析,为后续睡美人专利的识别与唤醒奠定基础,进而为及早发现并利用此类有价值的专利文献提供解决方案,促进知识流动和技术迭代,加速科学发现。“跨学科(Interdisciplinary)”是指超越一个已知学科的边界而进行的两个或两个以上学科的实践活动,由于现实的需要,跨学科研究为教育与科技资源的优化整合提供了重要依据和决策参考[26]。宋艳辉副教授在其报告《中美LIS博士论文跨学科发展比较研究》中就中美图书情报学博士论文的跨学科发展进行比较研究,展示了情报学、图书馆学、计算机科学技术、管理学和经济学5个学科的关键词频次分布图以及交叉学科共现关系网络等内容。研究发现,北美博士论文的研究层面有向人文科学、社会科学、自然科学、工程科学领域渗透的趋势;在跨学科论文数量方面,其分布特征大致呈现先增后减的趋势,北美的跨学科论文数量波动更加明显。可以看出,引文内容分析、替代计量指标、科学知识图谱等研究方法适用于多个学科领域,展现了信息计量在其他学科领域良好的适用性。
4 信息计量的新思考
4.1 紧密结合社会需求
近年来,各国的科研政策发生了明显的转变,从主要关注学术研究的科学影响力,转向同时关注科学研究的社会影响力,为社会重大问题提供解决方案[27]。2019年,爱思唯尔高级总裁Anne Kitson和中科院院士蔡荣根在首届世界科技与发展论坛上共同发布了人类社会发展的十大科学问题,显示出其聚焦人类社会关切的核心思想。我国国家自然科学基金委员会(NSFC)发布的《2019年度国家自然科学基金项目指南》也明确将源于国家重大需求,且具有鲜明问题和目标导向的“需求牵引、突破瓶颈”类研究作为四大类科学问题之一[27]。科学研究和社会需求之间存在着复杂的交互机制,社会需求可能会直接转化为科学研究需求,也可能转化为政策导向,引导科研人员从事相关的研究。同时,科学研究的进展有可能会产生新的社会需求。
为探究科研资助主题和社会需求之间是否存在对应关系,以及如何运用定量的研究方法进行测度,张琳教授作了主题报告《科学研究与社会需求的关系——基于科学计量方法的初探》,介绍了一项有关全球重大卫生疾病的计量研究,以量化和衡量学术界对国际公共卫生紧急状况的反应,测度其反应模式。研究发现,在每一次重大公共卫生事件爆发的时候,相关的科学研究,以论文为例,呈现出与疾病一样的迅速增长和爆发的趋势;而随着疾病形势逐步被控制,论文的增长趋势也随之回落。可以看出,学术界对于重大卫生事件,都做出了积极明显且迅速的反应[28]。信息计量学在发展过程中逐渐向社会实际需求靠拢,和社会需求紧密结合,在科技政策的制定、科研管理以及科技情报工作中都有所应用。
在另一项有关社会现象的科学研究中,李江教授作了主题报告《中性化的姓名更容易被引用吗?》,就中性化的姓名是否更容易被引用进行探讨。姓名中有性别倾向吗?中性化的姓名更容易被引用吗?通过对美国社会保障管理总署(Social Security Administration)中的美国新生儿的姓名和性别数据进行收集,建立性别中性化程度的测度指标,对数据进行时间轴推演发现,越来越多的人开始使用较为中性化的姓名,而非具有明显性别指向的姓名。研究发现,当作者的名字听起来比较中性化时,论文被引用的次数显著变多;不论男性还是女性,姓名较为中性化的第一作者和最后作者对被引均有影响。科学研究和社会需求二者是紧密联系的,信息计量不仅适用于其他学科领域,同时也对当前的社会需求以及社会现象进行独特的测度和评价。需要注意的是,指标要适用于不同的社会问题。这也反映出信息计量未来的发展趋势不仅是计量方法的深入和创新,更需要紧密地结合社会需求,结合不同的研究视角和研究数据,如社会、经济、医疗等,拓展计量学的研究范畴,反映社会现象,解决社会实际问题,推动社会发展。
4.2 静态数据向动态可视化转变
传统的文献计量学与科学计量学理论方法对文献信息资源处理乏力,从而对计量学科提出了更高的要求,进而催生了信息计量学[29]。信息是数据在信息媒介上的映射,数据是载荷或记录信息的按照一定规则排列组合的物理符号。人们对信息的接受始于对数据的接收,对信息的获取只能通过对数据背景和规则的解读[30]。随着技术的发展和时代的进步,从文本到图像,从静态页面到动态视频,表征了数据从静态到动态发展的趋势。数据可视化作为信息计量不可或缺的方法之一,也将朝着动态化的方向发展。动态可视化可分为3个大类:动画,交互和实时[31]。赵星教授在其主题报告《数欲静,而风不止——动态可视化如何让数据跳动》中指出,相较于普通的可视化,动态可视化增加了时空状态的关联变换,是比静态可视化多一个维度(时间维)的可视化形式,将数据从时空层面上进行切片,再通过动态形式联系成一个整体;它具有同时展现继承和发展以及能够对连续数据隐含联系进行挖掘的优势,如对多维度引文影响力以及多维度引文机构指标的动态可视化。而利用动态树形图、动态曲线图、动态维度机构画像以及动态关系网络图,能够更加清晰地展示出数据之间的关系。特别是当下动态疫情的展示,为信息计量研究提供了新的角度和方向。
5 结语
信息计量和科学评价在新时期显示出与时俱进的趋势和走向,研究方法和对象都有所创新和发展。总的来说,体现在以下几个方面:一是科学评价模式的转变,科研评价体系日益完善。新时期环境和技术的变化使得科学评价更加公平公正,科学评价原有的依赖单一计量指标的现状已经转变;在开放获取运动下,替代计量指标不断发展,科研评价体系正日益完善。二是信息计量和科研评价方法不断深入,研究对象紧密结合实际。传统的引文分析不断创新,转向引文语义分析,而替代计量指标也逐渐完善,计量方法向纵深发展;计量研究与社会交互程度加深,丰富的社会数据和社会现象促进了研究与社会现象的紧密结合;三是信息计量研究领域多元化,与其他学科交叉融合加深。信息计量方法已运用于多个学科领域,信息计量与其他学科的融合正在不断加深。丰富的数据和来源对数据处理和计算能力的要求日益提高,也增进了信息计量与计算机科学等学科的交叉融合[32]。
本届以“信息计量与科学评价:新时期、新发展、新趋势”为主题的论坛,注重信息计量与科学评价的相互结合,国际化视野突出,为青年学者提供了一个思想交流的平台,是青年学者在特殊时期科研成果的集中展示。借用邱均平教授对本次论坛“新”的特点的评价,一是举办单位新,首次由青年学术团队主办;二是会议形式新,依托网络会议交流,形式新颖;三是报告选题、报告内容、研究角度和方法乃至是研究结论都有所创新。邱均平教授最后对青年学者提出建议:要加强理论研究,要处理好各类科学评价的不同特征和各种关系,要特别注意计量分析方法的规范化,研究论文或学术报告要更加突出重点。
展望未来,与时俱进。新技术能够推动计量学和评价学的进步,是未来信息计量与科学评价的发展方向和研究重点之一。未来的科学评价将朝着全面化、智能化和精准化发展,评价体系更加合理和完善,信息计量也将运用人工智能、自然语言处理等新技术,不断创新研究方法、研究角度和对象,并与社会需求和社会发展紧密结合。