“暗数据”可视化在“双一流”学科建设中的线索甄别研究
2019-08-05
2017年9月,国家教育部、财政部、发改委公布了世界一流大学和一流学科(简称“双一流”)建设高校及建设学科名单[1],同时强调此次遴选认定不是一劳永逸,并非“终身制”,因此各高等院校对图书情报服务部门实施建设成效动态监测的需求与日俱增。医学高等院校既具备了作为高等院校基础研究拥有较高学术产出的特征,也具备了在生物医药等应用研究领域较为活跃的特点,所隐含的“暗数据”广度和深度符合对其进行可视化分析。
1 研究现状与文献调研
“暗数据”研究在我国尚处于起步阶段。2015年2月22日,我国著名学者吴建中先生首次在其个人博客“建中读书”里从理论探讨角度论述了对“暗数据”的理解并做出了简要的前景分析,受到了业界高度关注。随后,网络辞典“水滴学堂”率先尝试在“暗数据”的定义、特征和应用场景3方面给予了简单的揭示。二者的观点不谋而合,均认为“‘暗数据’是深藏于海量数据之中、在商业应用上可能发挥重大作用的关键隐含数据。”它更强调“暗数据”的作用和影响力。目前,国内普遍认可的是美国权威的IT研究与顾问咨询公司Gartner公司对“暗数据”的定义:“企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其他目的(如分析、商业关系和直接获利)的信息”[2]。
在实践研究方面,2008年,国际知名的开放出版机构生物医学中心(BioMed Central,BMC)开始致力于药物开发领域的暗数据研究,随后全球最大搜索引擎谷歌(Google)开始致力于科技领域的暗数据研究。2012年开始,美国众多企业在信息发布或微信等媒体上透露将关注“暗数据”信息。务实的IT业界内,包括惠普公司(HP)、美国慷孚系统公司(CommVault System,Inc)等,正致力于研究和推广点亮“暗数据”的信息治理策略研究和智能归档解决方案[2]。
近年来,笔者曾发表过几篇有关“暗数据”理论研究和应用趋势分析的文章,国内学者崔小宜[3]于2005年发表了一篇相关文章,此外几乎再无此类研究报道。笔者在3个国内数据库(中国知网(CNKI)中心站的期刊全文数据库、维普资讯的期刊全文数据库以及万方数据平台的期刊全文数据库)中,使用“暗数据”或“dark data”合并“双一流”或“高水平”作为检索入口词,不限定检索年限,截止到2019年2月1日,均未发现以“暗数据”可视化作为主要研究手段对高水平或“双一流”建设为主要研究目标的相关研究文献。说明国内对此研究接近空白[4]。
2 主要思路与研究对象
2.1 主要思路
笔者认为,“暗数据”可以看作是大数据的子集,无论我们是否觉察或感知其存在,“暗数据”都是曾经投入过人力、物力甚至财力进行收集而来的未经处理和分析的存储数据,并不是无用的数据。它也许包含未被发现的重要的价值或见解,就像宇宙中的“暗物质”,比起已知事物,“暗数据”的存在数量更大,但是潜在价值尚不明确,对其本身知之甚少,只能预测对未来产生一定推动或阻碍的可能性,也能为用户提供更多、更广泛的机遇[5]。现今的“双一流”学科建设需要放眼全球范围的一流高校及其优势学科,因此本文以“暗数据”可视化为主要研究手段,使用Python语言、SQL数据库等数据处理工具获取每个对标机构的论文和指标等原始数据,基于以上数据进行全球基准值的统计和计算。同时,为了全面地对比分析,通常使用2~3个指标进行多角度揭示,所以涉及到论文的量级常达百万甚至千万篇。从分析的广度来看,符合“暗数据”作为大数据主题的数据分析量;从分析的深度来看,可视化手段能够为科技决策者制定合理的学科发展规划政策和人才团队建设提供更深入、精准的参考性意见和决策支持。
从2016年全国第四轮学科评估工作开始,教育部首次明确要求使用基本科学指标(Essential Science Indicators,ESI)作为衡量学术产出水平的重要指标。在“双一流”建设过程中,各高校对ESI学科发展进行定期的动态跟踪,并把学科能否进入ESI全球前1%作为学科水平高低的重要评价标准之一。ESI已成为全球反映学科论文质量、体现学科竞争力和影响力的权威工具,因此本文以进入ESI榜单的论文数量、学科排名、潜力学科等数据为主要研究对象,通过对ESI学科数据的定期抓取与分析,使用WOS-SCIE、InCites、ESI数据库、Python语言和SQL数据库,联用文献调研法、“暗数据”可视化分析法、线性回归分析法和SWOT分析法,对ESI论文及其学科的归一化产出、影响力指标、国际合作情况等定量定性的指标进行文献计量学统计。
2.2 研究对象
ESI是在汇集和分析Web of Science(SCIE/SSCI)所收录的学术文献及其所引用的参考文献的基础上建立的深度分析型研究工具,仅以总被引频次进行排名,与文章数量无直接关系。它将SCIE/SSCI收录的期刊分为22个学科(表1),以滚动10年为统计周期,每2个月更新一次[6]。ESI根据各机构论文的被引频次的10年总和对机构进行排序,只有高校的学科论文总被引频次排名进入前1%才能入围该数据库。这一分析评价工具核心指标的设置是经过国内外专家长期观察筛选和计量分析后形成的。ESI及其相关分析越来越受到政府部门、各大高校、科研机构的关注和重视。本文主要针对ESI及其相关指标作为主要研究对象,拟从不同维度寻找“暗数据”可视化研究的耦合点。
表1 ESI提供的22个学科中英文对照表
3 线索甄别与应用实例
3.1 全景分析
高质量出版物的产量是衡量大学科研表现的重要指标之一,而ESI主要收录引用频次较高的SCI或SSCI期刊论文或综述,正好与高水平出版物的理解相吻合。如图1所示,近10年某医学院校的出版物产量整体呈现增长的态势,2018年的2 084篇比2008年的121篇增长了1 900多篇,增幅达17倍多。同时,用柱状图表示的引文影响力也低开高走,近10年呈现稳步增长的趋势,增幅超过555倍,这一数据表明该医学院校的论文增长速度超过了全球整体的增长水平。
图1 2008-2018年某医学院校总体出版物产量情况
3.2 国际合作概览分析
如表2所示,国际合作最多的10个国家中合作最紧密的合作领域均为临床医学,这与该校的学科分布有关;与其合作论文的引文影响力均超过全球平均水平,其中与有的国家合作的论文引文影响力超过全球平均水平,说明加强国际合作有利于拓展学校在全球范围的学术影响力,使学校得到更高的关注度和学术活化率。
表2 2008-2018年某医学院校合作最紧密的10个国家及其合作表现
3.3 学科发展潜力分析
从SWOT分析的角度,定量研究ESI学科发展优、劣势预估分析,开展多维指标与立体视觉对大学创新性与竞争力评价的耦合研究。图2中,相对于全球的文献产量占比(X轴)是用机构某学科的文献产量占该机构文献总产量的比例除以全球该学科的文献产量占全球文献总产量的比例的比值,因此它揭示了机构各学科的相对科研产出是否高于全球平均水平;X轴上全球均值为1。图2中右上角的第一象限代表优势,该区域的学科文献产量占比高且具有高引文影响力;左上角的第二象限代表机会,该区域的学科文献产量占比较小,但相对于全球平均水平而言具较高的引文影响力。这2个象限的所在学科,都是学校当前发展关注的重点对象。
图2 某医学高等院校22个ESI学科SWOT分析
基于目前的数据和4个象限制定的规则来看,位于优势学科区域的临床医学、分子生物与遗传学、神经科学与行为学、药理与毒理学,其论文产出占比和引文影响力均超过了全球平均水平。此外,产出绝对数量较少但其引文影响力均超过全球平均水平的潜力学科,以及一些引文影响力接近1的受威胁学科如“综合多学科”(Multidisciplinary),这些学科的产量目前占比不高,即发文量并不少,但影响力一直达不到被收录的阈值,这可以为学校未来的规划提供更为合适的建议,是机构未来发展规划的重点关注对象。
3.4 潜力学科趋势预测
从学科发展所需的数量来说,通过图2的SWOT分析明确了学校当前的学科发展潜力后,对第二象限重点关注的潜力学科做进一步预测研究,可通过预测公式(公式1)估算。
此公式是按照ESI对近10年收录论文规律的统计,并按照当前的发展速度进行推演的。但实际上,新出版的论文一般在出版的2~3年后才进入引用高峰期,“新增论文的被引次数”往往低于作为分母的“该校该学科的篇均被引次数”,而且该公式未考虑现有论文的被引次数继续增加的情况。所以,一般来说所需新增论文数与实际存在一定的差距。
此外,由于ESI仅以总被引频次进行排名,与文章数量无直接关系,因此目前各高校更多关注的是该潜力学科需要多长时间能进入ESI全球前1%。对于这个时间长度问题,笔者尝试利用线性回归算法建立某潜力学科的预测模型,根据近年来从INCITES数据库定期更新并抓取下来的潜力学科数据,形成图3的预测模型。
图3 线性回归算法预测潜力学科被引频次与阈值差距模型
以下从研究热点及投稿期刊影响力2方面进一步分析如何让发表的论文得到更多关注。
3.5 热点追踪
为帮助科研管理人员更全面地把握当前全球重点研究方向的发展态势,继而为学校“双一流”推进过程中进行学科布局规划和重点培养建设人才队伍提供客观的数据支撑,着眼于分析当前全球的科研主题与研究前沿、热点研究方向的关联情况,从而为定位高校与研究前沿关联度较高的科研人员与团队提供有力的数据支撑,激励科研人员提高自身及所在单位的科研竞争力及学术影响力。
使用ESI平台提供的“Research Fronts”界面分析各ESI学科的全球研究热点,但对于目前研究水平和科研投入与全球水平还存在一定落差的高校来说,还是不够“接地气”的。可以通过与对标高校对比分析,将当前国内外水平相当的高校与本校的研究热点相结合,寻找意向合作或竞争追赶的研究契机。如图4所示,选取一定数量的对标分析高校,对某ESI学科中被引频次排名前10%的论文进行剖析,既能准确把握各自的当前优势,又能进一步缩小研究范围,以便实现下一步颗粒度更细的精准分析,如针对第一完成单位或者通讯作者单位进行数据清洗,或进行共被引分析找出学校未来突破的发展方向等。
(说明:气泡大小代表机构在某ESI学科中被引频次排名前10%的论文相对比例,紫色为本机构)
3.6 投稿选刊分析及建议
在某医学院校发文最多的25种期刊中,有12种期刊位于Q1和Q2分区,说明发文最多的期刊中影响因子在同学科排名前50%的期刊占一半。但是,选取发文期刊时,一般只在投稿前期通过比较简单直观的影响因子(IF)和分区进行判断,发表后的论文有多少处于完全未被引用的休眠状态,哪些同学科期刊有更高的学术影响力和关注度,如何通过对标机构寻找同行投稿的突破口等,往往都被忽略了。如该校科研人员发文最多的为学术水平争议较大的期刊Plos One,发文数量远超过其他期刊。从期刊所属的Web of Science学科来看,多数集中在Oncology(肿瘤学)、Medical Research & Experimental(实验医学)和Biochemistry & Molecular Biology(生物化学与分子生物学)相关学科中。通过精准的对标分析,合并使用归一化处理的指标能较有效地借鉴对标同行的成功经验。
为了体现规范化的引文影响力情况,本文对某医学院校与对标高校构建引文影响力模型,如图5所示。
从图5可以看出,有相当比例的论文在发表后处于完全未被引用的休眠状态,除了论文本身的议题或撰写质量等因素之外,其投稿期刊在本行业内的口碑和学术关注度与单纯判断其影响因子IF和分区的结果存在一定的现实偏差。因而,通过分析对标同行的投稿习惯,并更多关注折线图1~8区间(即引文影响力较高的期刊)情况,将有利于整体提升论文影响力。
4 存在问题及解决方案
4.1 ESI数据更新速度的时滞性与统计范围的局限性与“双一流”学科发展的前瞻性问题
ESI以SCIE/SSCI收录的期刊,滚动10年为统计周期,每2个月更新一次,数据存在一定的时滞。如2018年11月研究的是SCIE/SSCI收录的2008年1月-8月的期刊数据,部分最新数据呈现常态性缺失。此外,ESI严格限定为Article和Review两种文献类型,而最能体现学科发展前沿的国际会议信息则不被收录,且对于准确计算各单位贡献的通讯作者(含共同)或第一作者(含共同)均无法实现准确检索与区分。相比之下,“双一流”大学的学科发展建设更注重前瞻性,如何通过相对样本量较大的数据进行全面统计分析,合理规避ESI数据平台统计带来的信息滞后问题,是本文首先面临的难点。因此,本文拟通过联用文献调研法、比较分析法和SWOT分析法,交叉使用WOS-SCIE数据库、InCites数据库、ESI数据库和DDA分析软件等对后台数据进行字段切分与深加工,分别从归一化产出或影响力指标国际合作情况等定量定性的指标等不同维度对高校科研成果进行分析研究,客观评价学科发展现状。
4.2 ESI数据库、INCITES数据库及WOS-SCIE数据库之间存在数据落差,无法实现无缝对接的难题
ESI数据库、INCITES数据库及WOS-SCIE数据库是科睿唯安公司提供的三大分析型数据库,联合使用这3个数据库对全面和客观掌握高校ESI学科的动态发展态势更有利。尽管数据来源与加工深度基本一致,但由于存在着收录范围、更新速度、功能侧重点不同等差异,在整理和统计分析过程中会出现统计口径不一致,无法实现无缝对接等难题。对此,尽可能使用或订购后台所需的部分元数据,并充分利用DDA等统计分析软件,邀请具备统计学、计算机编程、信息组织等知识背景的专业人员进行更准确、更全面的人工深加工,使ESI数据统计尽可能详尽与客观。
4.3 ESI学科分类与我国学科分类体系的定位差异
我国的学科是基于中国国务院学位委员会和教育部《学位授予和人才培养学科目录》的学科分类体系,与ESI的22个学科分类体系有较大的差异,将高校现有的学科与ESI的学科分类进行匹配是本文要解决的关键问题。今后拟通过整理、分析ESI学科收录的期刊清单,通过主要内容、引文学科归属等进行判断,从而将归属于不同学科的论文分别对应到ESI的22个学科分类中,通过归一化处理,形成口径一致的双向统计接口,以便于转化为符合我国学科分类体系的高校学科发展动态现状。
5 结语
建设世界一流大学的目标已成为党中央的战略决策[7],世界一流大学和一流学科建设是继“985工程”和“211工程”之后,中国高等教育领域的又一项国家级重点建设工程[8]。国家的“双一流”建设,让更多人认识了ESI。但ESI本身就是一个结果,只告诉人们哪些是全球最优。做到全球最优的方法、过程和途径等问题,既是本文研究的主要关注点,也是“双一流”建设以来不断被反复拷问的。
在全国高校建设“双一流”的过程中。高校图书馆的定位与服务已经在潜移默化中从“内核”开始发生了一定变化。由于主要承担了ESI相关检索与分析工作,也让越来越多的人更清晰地认识到高校图书馆人的能力与责任感。图书馆除了承担比以往更频繁和更高要求的来自学校领导、科研团队、研究学者等检索、筛选工作之外,还涉及到跨学科、多技能的综合统计、分析、评价和预测,甚至决策咨询等深层次的服务要求。“双一流”建设给高等教育事业的发展带来了全新的契机,同样也给高校图书馆人带来了新的发展机遇和提出了更高的要求。作为图书馆人,都希望借高校“双一流”建设的东风,占据越来越重要的位置。在实际工作中,仅密切关注跟踪ESI 数据还不够,今后要综合使用更多的分析工具,尝试将定量评价与同行评议等定性评价结合起来[9],深入研究挖掘其潜在数据价值。在把握机遇的同时,每位高校图书馆人更应努力提升“内功”[10],为“双一流”建设提供更全面、客观的科研支撑和决策参考。