APP下载

关于ESI研究前沿的思考和使用方法研究

2022-04-07边文越李国鹏周秋菊冷伏海

情报学报 2022年3期
关键词:钙钛矿成果论文

边文越,李国鹏,周秋菊,冷伏海

(中国科学院科技战略咨询研究院,北京 100190)

1 引 言

自2014年起,中国科学院(2016年前为文献情报中心,2016年至今为科技战略咨询研究院与文献情报中心)与科睿唯安基于Essential Science Indica‐tors(ESI)数据库研究前沿数据,联合研制并发布了《研究前沿》年度报告,取得了良好的社会反响。原国家副主席李源潮在中国科协会议上引用了该报告结果[1],《人民日报》[2]、《光明日报》[3]、中央电视台[4]、新华社[5]、《华尔街日报》等国内外新闻媒体以及美国物理联合会、日本科学技术振兴机构[6]等专业组织高度关注报告内容;中国农业科学院[7]、中国工程院[8]纷纷推出本领域的研究前沿报告,中国科学院科技战略咨询研究院也再接再厉,研制了《纳米研究前沿分析报告》《全球城市基础前沿研究监测指数》等产品[9-10];王小梅[11]、周秋菊[12]、边文越[13]、白如江[14]、周群[15]、孙震[16]、张迪[17]等对ESI研究前沿进行了深入研究,在《情报学报》《中国科学院院刊》等期刊发表了一系列文章,ESI研究前沿已经成为情报学界研究热点。

作为报告研制团队成员,本课题组在为《研究前沿》取得的成绩兴奋之余,也意识到有必要就ESI研究前沿的一些基本问题进行讨论,以进一步加固其发展基础。本文首先讨论了ESI研究前沿的一些基本问题,然后基于这些讨论,设计了基于ESI研究前沿的研发水平比较方法,并进行了案例验证。

2 关于ESI研究前沿的思考

2.1 前沿内涵

中文“研究前沿”在英文中实际对应的是两个含义有所区别的词组:research frontier和research front。前者多用于自然科学界,后者多见于情报学界[18],而ESI研究前沿使用的是后者。ESI研究前沿基于引用关系,每个前沿由一组高被引论文和引用这些论文的相关论文组成,这些高被引论文的共被引相似度强度位于设定的阈值之上[19]。ESI研究前沿每两个月更新一期,每期约1万个研究前沿。要搞清楚ESI研究前沿的内涵,关键是搞清楚re‐search front的准确含义以及其与research frontier的区别。

(1)词义辨析。根据《韦氏词典》的解释,frontier由“地理上的边界”引申出“认知的极限”(the farthermost limits of knowledge or achievement in a particular subject),从而具有“前沿”的含义。美国科技政策学家Bush在其著作《科学:无止境的前沿》(Science:The Endless Frontier)中使用了frontier一词。front是指“活跃或感兴趣的领域”(an area of activity or interest)。虽 然 Price[20]、Small[21]、Garfield[22]等对research front的定义不同,但都是基于高被引论文。一组被同行大量引用的论文所指向的领域自然是活跃的领域。因此,从词义上看,情报学界使用的research front与自然科学界使用的research frontier是有区别的,前者更多地是指向研究热点。

(2)学界观点。在国内,无论是情报学界还是自然科学界,都已经注意到了前者所说的research front并不是后者所通常理解的“研究前沿”。郑彦宁等[23]指出,基于引文方法识别出的research front更趋于热点而不是前沿[23]。某位长期从事科技情报研究的科研人员认为,research front翻译为“研究焦点”也许比“研究前沿”更合适一点。在中文语境中提到前沿,大家通常想到的是少数尖端研究领域,比如,物质结构、宇宙起源、生物演化等,对应的英文是frontier[24]。2015年10月,在《研究前沿2015》发布会上,应邀出席的某院士当场指出,报告中的“前沿”实际上是指研究热点。

(3)案例研究。2005年,《科学》(Science)杂志为庆祝创刊125周年,提出了125个科学问题,这些问题是科技界公认的研究前沿[25]。本文按照《研究前沿》报告的领域划分,分别从《科学》杂志这125个科学问题和2014—2020年《研究前沿》报告中选取了一些例子并进行对比。如表1所示,自然科学界和情报学界各自认为的研究前沿在方向上是一致的,但情报学界的research front更多地表现为实现自然科学界research frontier的具体方法和途径。这符合科学逻辑。因为研究前沿是科研人员共同的奋斗方向,在致力于解决research frontier的过程中,形成了一些可行性高、参与程度高的途径或方法即热点。这些途径或方法在引用关系上体现为一组内容关联、频繁被共同引用的论文及其施引论文,这就是research front。

表1 《科学》和《研究前沿》中“前沿”对比

综上所述,本文认为ESIresearch front反映的是研究热点。鉴于我国情报学界已经习惯将其翻译成ESI研究前沿,本文仍沿用这一翻译,但其含义是研究热点。

2.2 合格标准

采用聚类方法求解出的研究前沿必须具有科学含义,才具有价值。通过连续7年分析解读ESI研究前沿,本文认为确实有相当多的ESI研究前沿准确反映了科技界的研究热点,具有很强的分析和研究价值。但仍有一部分ESI研究前沿值得商榷,主要有以下三个方面的原因。

(1)聚类规模。理论上,一个ESI研究前沿由一组共被引论文及其施引论文组成。但在实际分析解读中,因为施引论文数量众多且主题发散,所以主要关注作为基础的共被引论文。根据聚类参数设计,每个ESI研究前沿对应一个由2~50篇论文组成的共被引论文簇。以2018年3月前沿数据为例(表2),在全部10143个前沿中,只包含2或3篇论文的簇多达6632个,占比65.4%。而依据多年研究形成的经验,至少需要4篇论文才能准确识别出其共同指向的研究主题,即至少约2/3的ESI研究前沿基本判断不出主题。组成簇的论文太少不行,而太多也不代表就能识别出研究主题,这与引用动机有关。根据研究经验,由20~40篇论文组成的簇通常能够较好地反映研究主题。

表2 ESI研究前沿统计分析(2018年3月数据)

(2)引用动机。ESI在对高被引论文进行聚类时,默认引用都是合理的科学行为,是对已发表成果的继承和发展,但实际情况要复杂得多。一方面,存在不合理的引用,突出体现为自引哄抬。少数ESI研究前沿的共被引论文簇绝大多数甚至全部由自引论文组成,类型包括自我引用、师生互引、同门互引、夫妻互引、固定合作伙伴互引等。当然,不排除其中确实有优秀的研究团体,其研究内容也具有较高的科学价值,但更多的是互相哄抬。另一方面,合理的引用动机也千差万别。同样引用一篇文献,有人采用前言宏观介绍,有人借鉴实验方法,有人关注结果讨论。这就使得在同一个共被引论文簇,特别是规模较大的簇中,可能存在两个甚至多个内容关联性不强的研究主题。

(3)科学价值。即使研究主题聚焦明确、引用动机科学合理,一个ESI研究前沿也不一定合格,因为它还必须具有较高的科学价值。缺乏科学价值主要表现为共被引论文大都来自科技不发达国家和发表在低水平期刊。对于具有全球普适性的自然科学热点,科技强国不参与基本不可能;即使是一些区域性热点,通常也至少有1~2个科技强国参与研究。而论文是否发表在本领域权威期刊,则反映了同行专家对研究成果是否认可。

综上所述,本文认为一个ESI研究前沿的共被引论文簇符合研究主题聚焦明确、引用动机科学合理、科技强国参与、权威期刊认可这四个标准,该前沿就可被认定为是一个合格的研究前沿。

2.3 使用方法

分析利用ESI研究前沿实质上就是分析利用组成前沿的共被引论文簇和施引论文,前者是重点。本文认为,明确共被引论文簇的内容属性是正确使用ESI研究前沿的前提。

ESI数据库将组成前沿的共被引论文簇称为“core papers”。根据《韦氏词典》的解释,core的含义为“a central and often foundational part usually distinct from the enveloping part by a difference in na‐ture”,不仅有“中心”的含义,同时蕴含“基础”的意思。相比于施引论文,共被引论文簇居于引用网络的中心,并且构成引用网络的基础。因此,Persson[26]认为共被引论文簇是引用网络的“智力基础”(intellectual base)。Zhao[27]持相似观点,称其为“知识基础”(knowledge base)。《研究前沿》主要研制者冷伏海研究员也认为是知识基础。国内有学者将core papers翻译为“核心论文”。根据《现代汉语词典》(第七版)的解释,“核心”是指“主要部分(就事物之间的关系而言)”,如领导核心、核心小组等。相比于core papers的英文原意,“核心论文”突出了共被引论文簇对引用网络,即ESI研究前沿的重要性。本文认为,将core papers翻译为“基础论文”更好,不仅更贴合其原意,而且更准确地反映了共被引论文簇的内容属性,具体理由阐述如下。

(1)基础性不等于重要性。施引论文以共被引论文簇作为其研究基础,因此,基础性是共被引论文簇的第一性。共被引论文簇频繁被引用,即频繁被当作研究基础,反映了其重要性。但对于某个具体ESI研究前沿,两者并不一定等价。例如,某钠电池研究前沿,其共被引论文簇含有研究锂电池的论文。锂与钠是同族化学元素,化学性质相似,其研究有借鉴意义。因此,锂电池研究可以是钠电池研究的基础,但不能算作后者领域的重要成果。类似的例子在ESI研究前沿中还有很多。

(2)共被引论文簇的重要性不完备。第一,共被引论文簇有时间限制,要求是之前六年发表的论文。因此,会遗漏发表在六年前的本领域奠基性工作。第二,进入共被引论文簇的前提是成为高被引论文,而ESI数据库的高被引标准是按出版年分别计算,即发表越早的论文要求被引次数越高,发表越近的论文则要求相对较低。以2018年3月数据为例(表3),47296篇共被引论文发表时间从2012年到2017年12月,被引次数统计截至2017年12月,最高被引5063次、最低4次。相对而言,长时间积累了较高引用次数的论文说明其经过了时间检验,其重要性可能性更高;而发表时间较近、被引次数相对较低的高被引论文,其后续发展情况未知,其重要性也打上了问号。第三,ESI数据库的高被引标准对综述和普通论文一视同仁,使得综述更容易进入共被引论文簇。但综述只是对前人研究成果的总结归纳,其对领域发展的重要性通常不及原创性论文。第四,共被引论文簇要求高被引论文“共同”被引用强度达到一定阈值,因此,可能遗漏阈值之下的重要工作。科睿唯安公司报告指出,受聚类方法限制,共被引论文簇一度只利用了43%的高被引论文(目前是99%)[28]。第五,ESI研究前沿存在碎片化特点,可能将一个研究热点分裂成若干个。例如,在2018年3月数据中,钙钛矿太阳能电池这一研究热点被分成20多个前沿,虽然反映了其不同的研究细节,但也使任一前沿的共被引论文簇都无法反映其全貌。

表3 ESI研究前沿共被引论文被引用情况(2018年3月数据)

明确了共被引论文簇的内容属性,其使用问题迎刃而解。作为ESI研究前沿的基础,共被引论文簇可以用于揭示研究热点,但由于其重要性不完备,通常不适合直接用于分析比较各国研究水平。本文采用“基础论文”一词指代ESI研究前沿的共被引论文簇。

3 基于ESI研究前沿的研究水平比较方法研究

3.1 方法设计

构建高质量的论文分析集合是准确比较各国基础研究水平的前提。Web of Science数据库虽然论文收录较全,但论文质量参差不齐。ESI数据库选取了其中top 1%高被引论文。虽然高被引不一定代表高质量,但两者确实有较大相关性,因此,高被引论文具有更高的分析价值。然而ESI数据库只有22个学科分类,若要分析某个具体前沿领域,则需要费时费力地构建检索式。ESI数据库通过共被引聚类,每期形成约1万个研究前沿,相当于把高被引论文按照研究主题做了较为细致的划分,为前沿数据集构建与分析提供了很大方便。然而,如上文所述,在形成ESI研究前沿的过程中,受方法所限存在一些误差,导致ESI研究前沿并不适合直接用于分析比较各国研究水平。本文认为,应该充分利用已形成的分析便利条件即ESI研究前沿,有针对性地予以弥补,设计合理的基于ESI研究前沿的研究水平比较方法。重点解决因研究前沿碎片化导致的“只见树木不见森林”问题和因发表时间限制、共被引强度要求而导致的重要成果丢失问题。对于高被引标准问题,只要不搞国家、机构、作者发文量的排名,则影响不大。事实上,对于ESI研究前沿这种小样本数据,也不应该简单地根据发文量排名,分析比较各国研究水平。

如图1所示,本文的设计思路是:首先,在ESI研究前沿中找出所有与分析主题相关的前沿并将其基础论文合并,即解决研究前沿碎片化问题;其次,以合并后的基础论文为基础,补充前沿发展历程中的重要成果,构建基本完备的重要成果集合,即解决基础论文重要性不完备问题;最后,以构建的重要成果集为基础进行研究水平比较分析。

图1 基于ESI研究前沿的研究水平比较方法

针对上述思路,本文拟采用以下方法实现:①根据分析主题,设计构造检索式,在ESI研究前沿“research front name”字段检索相关前沿。每个前沿的research front name由若干个关键词组成,这些关键词可以反映前沿的内容和范围。对于检索到前沿,阅读其基础论文,剔除不相关和不合格的前沿,对剩下的前沿命名并将其基础论文合并。②以合并后的基础论文为基础,根据引用关系和语义关系补充前沿发展过程中的重要成果。论文通常在引言部分综述前人的重要成果时会使用一些信号词,比如,first代表首次提出,to date、current往往紧跟最新进展,record、remarkable、形容词最高级(如highest、longest)提示重要性高。包含这些词的句子所引用的参考文献一般都是值得关注的重要成果。此外,通过搜索引擎检索与分析主题相关的新闻媒体报道,防止遗漏重要进展,并补充最新进展弥补引文的滞后性。③采用知识元分析方法,比较各国研究水平[29]。根据分析主题特点,设计知识元组成结构,然后从论文和新闻媒体报道中提取前沿知识元,并根据语义把知识元链接形成知识网络,进而对前沿发展趋势和各国研究水平进行深入分析和对比。

3.2 案例验证

本文以钙钛矿太阳能电池为案例,对分析框架进行验证。使用2018年3月ESI研究前沿数据,分析时间截至2017年年底。

钙钛矿太阳能电池是以钙钛矿材料作为吸光层的太阳能电池,光电转换效率从2009年首次报道时的3.8%,到2018年已经突破了23%。2013年,钙钛矿太阳能电池被《科学》杂志评为年度十大突破之一。2016年,钙钛矿太阳能电池被“世界经济论坛”评为当年十大新兴技术之一[30]。

首先,以perovskite为关键词在ESI研究前沿re‐search front name字段中检索,找到118个前沿。接着,阅读每个前沿的基础论文,剔除不属于钙钛矿太阳能电池领域和不合格的前沿,还剩下20个,对其命名,分为电池设计和基础研究两类(表4)。为比较电池设计水平,本文选取电池设计类的7个前沿,将其基础论文合并。由表4可以看出,虽然理论上ESI研究前沿使用的是之前六年的论文,但具体到某一个前沿其基础论文可能并没有覆盖那么长的时间范围。而且,即使将电池设计类的7个前沿合并,其56篇基础论文的发表时间范围为2012年8月至2017年1月,距离当期收录截止时间2017年12月也还有一段距离。这些都提示了必须补充前沿进展和最新成果。

表4 钙钛矿太阳能电池研究前沿

本文采取由近及远的策略,先补充最新成果,再补充前沿发展历程中的重要成果。首先,搜索权威新闻媒体对钙钛矿太阳能电池的报道,补充了2017年的两篇重要论文和三项重要成果。然后,将这2篇论文和56篇基础论文合并,通过逐篇阅读其引言部分,找到first、recent、to date、record、re‐markable、highest等提示关键成果的词,并下载对应的参考文献,去除重复文献,最后合计得到23篇论文。然而,通过阅读这23篇论文发现,其引言部分包括了一些前述58篇论文未提到的重要研究成果,即仍需继续上述过程。为此,本文为这一过程设置了终点:①回到起点,即first所提示的本领域第一篇成果;或者②没有新的发现,即与已有论文重复;或者③引用的成果的重要性明显不足。又经过两轮补充,本文结束这一过程,构建了由102篇论文和3项媒体报道成果组成的重要成果集。

本文根据钙钛矿太阳能电池的特点,设计了由名称、电池组成、性能、来源四个基本要素组成的知识元。其中,“名称”表示钙钛矿太阳能电池的具体研究方向。由于经过补充的重要成果集的内容范围已经超出了电池设计类的七个前沿,本文对研究方向重新进行了分类和命名,分为正型结构、反型结构、半透明电池、串联电池、无机钙钛矿电池、无铅钙钛矿电池、大面积、小模块、大模块和其他等。“电池组成”表示钙钛矿太阳能电池正反电极、电子传输层、吸光层、空穴传输层等部分的组成材料,对于串联电池还包括第二种电池的信息和串联方式。“性能”表示用于测试的电池活性面积,以及在该面积下测得的光电转换效率、开路电压、短路电流、填充因子等信息。“来源”表示该条知识元的出处,以Web of Science入藏号或新闻报道出处表示,并关联作者、机构、出版时间等信息。本文通过人工阅读的方式,从102篇论文和3项媒体报道成果中,挖掘出112条知识元(图2)。

图2 钙钛矿太阳能电池知识元(部分)

这些知识元虽然来自不同论文或媒体报道,但是彼此之间存在着丰富的语义关系,可以根据分析需要有针对性地组织起来形成知识网络。本文选取最能反映各国研发水平的小面积(约0.1 cm2)太阳能电池研究结果,绘制电池效率提升曲线。如图3所示,由知识元串联形成的曲线清晰地呈现了电池效率从2009年5月首次报道时的3.8%到2017年6月22.1%的快速提升过程,在这一过程中做出重要贡献的机构及机构间的合作与竞争情况。由图3可知,虽然日本在该领域做出奠基性成果,但截至分析时间钙钛矿太阳能电池研究水平领先的国家是韩国和瑞士。图3的分析结果受到领域专家认可。

图3 钙钛矿太阳能电池效率提升曲线

3.3 讨论

结合案例验证,对本文提出的基于ESI研究前沿的研究水平比较方法作以下讨论。

(1)补充重要成果的必要性。如图3所示,在10项里程碑成果中,有6项不在当期ESI研究前沿使用的47296篇基础论文范围内。其中,用圆形实心点表示的2项成果是由于发表时间(2012年前)在当期基础论文收录时间范围外而未被收录,而用三角形实心点表示的4项成果的发表时间全部在收录时间范围内,并且被引频次达到甚至远远超过高被引标准(表5),但仍未被收录。无论哪种原因,都说明使用ESI研究前沿基础论文作研究水平分析时,必须补充重要成果,而不能直接将其用于分析。

表5 补充的四项论文与同期基础论文对比

(2)补充重要成果的方法。用于比较研究水平的成果,重质不重量,如何衡量论文的质量成为重要问题。如上文所述,单纯依靠引用次数多少判断研究水平高低并不可靠。本文采取基于引用关系和语义关系的遴选方法,实质上是借助专家智慧判断引用成果的质量。当作者使用first、to date、cur‐rent、record、remarkable、形容词最高级等词语修饰引用的研究成果时,说明该成果值得重视,有必要被补充进来。这种遴选方法既可以降低自引哄抬的影响,又可以通过直接引用关系避免“共同”被引用所导致的遗漏,还可以突破ESI数据库对基础论文“之前六年”的时间限制。

(3)关于知识元挖掘方法。本文采取人工方法挖掘知识元,而未采用机器挖掘方法。其原因主要在于每条知识元由多项数据组成,这些数据不仅分布位置多样(有的在正文,有的在附件;有的在段落,有的在图表),而且每一项数据可能存在需要分辨的多条记录,给机器挖掘造成一定困难。本文认为解决这一问题既需要探索智能的机器挖掘方法,更需要发展高质量的本国期刊。因为本文所列的知识元数据都是作者在向期刊投稿时需要明确提供的,哪个国家掌握了期刊及其背后的数据库,哪个国家就掌握了这些经过语义标引的高质量数据,节省了挖掘成本。因此,在数据驱动科研时代下,我国必须积极发展自己的科技期刊,通过吸引国内外优秀论文投稿,积累优质数据,为本国科研服务。

(4)科研评价话语权。近年来,诸如ESI高被引科学家、ESI“核心论文”等基于引用次数的评价指标频频被用于科研评价。不可否认,通过高被引方法确实能发现很多优秀的科学家和研究成果。然而,目前的情况多是把数据商提供的分析结果拿来就用,缺少深究分析方法和分析结果是否合理。这相当于把我国科研评价话语权直接交给了外国商业公司,不利于我国科技事业的健康发展。本文提出的研究水平比较方法,既充分利用ESI研究前沿,又有针对性地完善,可以更好地用于科研评价,有利于把评价话语权牢牢掌握在自己手中。

4 总结

本文从ESI研究前沿出发,首先讨论了前沿内涵、合格标准、使用方法等基本问题,认为ESI研究前沿实际反映的是当今科技界的研究热点,一个合格的ESI研究前沿需要其基础论文符合研究主题聚焦明确、引用动机科学合理、科技强国参与、权威期刊认可等四个标准,基础论文可以用于揭示研究热点但不适合直接用于分析比较各国的研究水平。其次,基于上述结论,本文设计了基于ESI研究前沿的研究水平比较方法,其核心是构建基本完备的重要成果集合并采用知识元方法分析成果集合、比较各国研究水平。最后,本文使用钙钛矿太阳能电池这一研究热点对该方法成功进行了验证,并结合验证结果对补充重要成果的必要性和补充方法、知识元挖掘方法和科研评价话语权问题进行了讨论。

按照《孙子兵法》“上兵伐谋”思想,分析比较各国在某一前沿领域的研究水平,应该从战略规划开始,沿着“战略规划—项目部署—基础研究—成果转化”链条进行全方位比较。因此,本课题组正在构建基于战略规划、项目部署、基础研究、成果转化等多种数据的研究水平分析比较方法,ESI研究前沿在其中将发挥识别研究热点和以其为基础构建基础研究成果集等重要作用。同时,考虑到各领域科学研究的不同特点(纯理论、应用导向等),在方法设计和ESI研究前沿使用方面将更加具有针对性和符合学科特点。

猜你喜欢

钙钛矿成果论文
醋酸纤维素提高CsPbIBr2 无机钙钛矿薄膜质量及其太阳能电池光电性能*
钙钛矿型BaFeO3-δ载氧体的制备与气化性能
验收成果
有机添加剂在金属卤化钙钛矿发光二极管中的应用*
数说中国—东盟经贸合作成果
2018数博会4大成果
本期论文英文摘要
一张图看懂“论坛成果清单”
本期论文英文摘要
本期论文英文摘要