大数据时代学术评价的数据化难点及其应对
2020-11-06杨红艳
基金项目:国家社会科学基金项目“大数据时代学术评价理论方法改进研究”(项目编号:17BTQ015)。
作者简介:杨红艳(1981-),女,编审,博士,研究方向:学术评价、信息资源管理。
摘要:[目的/意义]大数据时代的学术评价数据化,是指对有关评价的学术活动进行全面记录、存储、统计并形成有价值数据的过程,这是支撑对学术生态中各类对象的质量或水平做出判断的必要环节。数据化是实现“基于大数据的学术评价”的前提。[研究设计/方法]本文对相关文献、概念和实践进行归纳分析,探讨了大数据时代学术评价数据化的难点及其应对策略。[结论/发现]数据化的难点包括数据缺失或“隐形”、数据难获取、数据质量低、数据化成本高、数据化意识不足。应对策略包括3个方面,即搭建学术评价数据化的基本框架、变革学术评价的体系和流程、制定学术评价数据化的关键策略。[创新/价值]数据化是当前学术评价急需却缺乏系统研究的一个领域,也是本文选题和观点的主要价值所在。
关键词:学术评价;数据化;大数据;难点;策略
DOI:10.3969/j.issn.1008-0821.2020.11.014
〔中图分类号〕G30〔文献标识码〕A〔文章编号〕1008-0821(2020)11-0136-08
The Difficulties and Solutions of Research Evaluation
Datamizing in the Era of Big Data
Yang Hongyan
(Center for Research Evaluation of Humanities and Social Sciences,Renmin University of China,
Beijing 100872,China)
Abstract:[Purpose/Significance]In the era of big data,DATAMIZING of research evaluation refers to the process of comprehensively recording,storing,statistics and forming valuable data for academic activities related to evaluation,which is necessary to support the judgment of the quality or level of various entities in academic ecology.DATAMIZING is the premise of RESEARCH EVALUATION BASED ON BIG DATA.[Design/Methodology]In this paper,by summarizing and analyzing the relevant literature,concepts and practices,the difficulties and countermeasures of research evaluation DATAMIZING in the era of big data were discussed.[Findings/Conclusion]The difficulties of DATAMIZING process include lack of data or invisible data,difficulty in data acquisition,low quality of data,high cost of DATAMIZING and insufficient awareness of DATAMIZING.Accordingly,coping strategies include three aspects:building the fundamental framework of research evaluation data,changing the system and process of research evaluation,and formulating the key strategies for research evaluation DATAMIZING.[Originality/Value]DATAMIZING is an urgent but lack of systematic research topic in the field of research evaluation,which is also the main value of this papers topic and views.
Key words:research evaluation;data;big data;difficulties;strategies
大數据时代的到来已成为不争的事实。数据是新的石油,它正成为一种生产资料、稀有资产、重要战略资源,并全面融入社会、生产、生活的各个方面,深刻改变着世界的经济格局、利益格局、安全格局[1]。这一时代的变革是不容忽视的,正如达文波特的研究指出:“大数据将会引发大事件,应尽快思考应对之策”[2]。而“所有的一切都证明,爆发无处不在”,如果我们不利用大数据未雨绸缪,那便会在未来中失利[3]。
大数据的影响也渗透到了学术领域,悄然改变着学术生态系统。2007年,图灵奖得主JIM GRAY指出,“数据密集型科学”的新型研究范式已成为科学研究的第四范式,该范式以数据为中心进行思考、设计和实施科学研究,科学发现也依赖于对海量数据的收集和处理分析。社会科学领域也认为,大数据对于研究对象、服务决策、社会普及和效果评估等方面均有利于推动社会科学迈向新的发展高度[4]。如果将学术生态系统理解为由学术、人、环境组成的一个可以与外界不断进行物质、能量和信息交换的结构系统[5],数据均已深度介入并影响着这个系统的投入、产出和生产成果的运转过程。
作为学术生态系统不可或缺的组成部分之一,学术评价同样也受到大数据时代的深刻影响,大数据时代的学术评价理应被提上日程[6]。基于大数据的评价新模式,应着重实现数据化、多元化、全量化、集成化和网络化5个重要趋势[7],其中首要的是数据化。数据化也是大数据时代所倡导的理念之一,就像舍恩伯格所说的“世界的本质是數据”[8]。数据化的核心是要解决“缺数据”和“数据不可用”的问题,这也反映出当前学术评价实践对数据的迫切需求。无论采用何种评价方法,仅依靠“拍脑袋”或“片面的数据”不足以得出科学的评价结论。充足的学术评价大数据是使“基于大数据的学术评价”真正落地的前提,否则“基于大数据的学术评价”将是空谈。
为此,本文在述评学术评价数据化相关概念的基础上,分析归纳评价数据化的难点,并探讨其应对策略。
1学术评价数据化的相关概念
11数据和数据化
“数据”在拉丁文里是“已知”的意思,也可以理解为“事实”,代表对某件事物的描述。在维基百科上,英文Data是未经翻译的信息,从数据中可以提取出信息,并进一步提取出知识。覃雄派等认为,数据是对现实世界的实体或事实的符号化表示,表现为一系列符号化的值[1]。在《世界是数字的》[9]一书中,将数据的定义局限在数字化环境中,数据是指通过硬件及软件收集、存储和处理,并通过通信系统传送到世界各地的全部信息,但这并没有改变数据这一概念的本质,即数据是信息的原始状态。同时,数据并不一定是指数值、量值,数据是人工形成的,其基本功能包括记录、测量、存储、表达等[10]。
那么何为“数据化”呢?化者,变也。维克托·迈尔-舍恩伯格等[8]把“数据化”阐释为“一种把现象转变为可制表分析的量化形式的过程”;数据化具有“突变”的本质,这种全新的思维植根于以数据为核心构造虚拟世界的技术哲学和数据友好、数据自由的科技伦理中,“反映了现实世界对信息科技应用的非线性、标准化、透明和开放的诉求”。姜浩[10]则认为,数据化是“将均匀、连续的数字比特结构化和可量化,形成标准化的、开放的、非线性的、通用的数据对象,并基于不同形态与类别的数据对象,实现相关应用,开展相关活动”,并认为数据化是中文中独有的一个重要概念,英文中对应的词应是“Datamize”;此处的数据不是指狭义的数量值,而是指可以对应于各种信息对象的、数字比特的结构化集合。这两个定义的前者强调数据化是“量化过程”,后者则进一步认为数据化不仅包括“量化过程”,并且强调了数据的“结构化过程”。
其实,数据化是从思维到实践的全面变革,指的是数据成为人类社会实践中必不可少的工具。数据化与量化似乎是不一致的,就像前文定义中所述,既然数据不仅包含数值,也指对事物的描述,那么数据化的概念就不仅是量化,也包含量化以外的内容。但是“一切皆可量化”[8,11]的观点主张,所有无形之物均有法可测,从这个角度来说,尽管数据包含非数量化的内容,但是本质上仍是可量化的,描述性的数据为量化结论提供了依据,所以数据化与量化的宗旨并无实质区别,可认为两者是一致的。
12数字化和大数据
维克托·迈尔-舍恩伯格[8]认为,数据化和数字化大相径庭;数字化指的是把模拟数据转换成二进制码,而计量和记录的需求却是数据化的前提;在数字化时代来临的几个世纪前就已经奠定好了数据化的基础;因此,数字化带来了数据化,但是数字化无法取代数据化。姜浩[10]认为,数据化是对数字化的拓展与推进,是在电子化、信息化、计算机化和网络化等术语之间自然出现的,关注的焦点更多地集中在数字比特更复杂、更高级的存在形态上;数字化对应的基本单元是比特,数据化对应的典型对象则是字节和字。可见,数字化着力关注信息技术,数据化却着重关注信息内容及形态。
笔者认为,数据化甚至可以先于信息技术存在,大数据的发展和计算机的变革并不是同步的。虽然数字化让大数据成为了可能,但是大数据发展的核心动力来源于人类测量、记录和分析世界的渴望,即数据化的需求和动力。数字化关注的焦点是技术,而大数据关注的焦点是信息。在大数据时代,数据的价值从它最基本的用途转变为未来的潜在用途,这一转变影响并改变了组织看待和使用数据的方式[8]。这就注定大数据虽然离不开数字化,但是与数据化也是密不可分的。
13学术评价的数据化
基于上述分析,数据化是指尽可能地将评价活动形成数据并进行记录和管理[7];大数据时代的学术评价要实现的数据化,是指对学术活动进行全面地记录、存储、统计并形成有价值数据的过程,从而支撑对学术生态中各类对象的质量或水平等做出判断。这样的学术评价大数据具有全面、广泛、实时更新等特征,能够充分反映学术活动各个环节的发展状况。基于这样的数据化,将使学术评价活动从直接的主观判断或基于小数据的判断,转变为基于评价大数据的判断。因此,必须分析学术生态系统的组成要素和活动过程,记录、存储、统计,甚至创造出评价所需的数据。
若把世界分为实体世界、思维世界、虚拟世界3个维度,数据化则是对实体世界的表示,也是思维世界的智能外化为虚拟世界数据的过程[10]。从这个角度说,学术评价的数据化,就是对实体世界中的学术活动进行记录、存储,学术评价中评委的主要任务就是通过虚拟世界的数据充分了解实体世界的信息,并结合思维世界中的信息做出学术评价结论,即做出基于数据的决策(Data Driven Decision Making,DDD),而不仅仅是基于直觉、拍脑袋进行决策[1]。研究表明,以这样的数据做参考,传统专家能够做出更准确的建议[12]。这说明,大数据将使学术评价活动变得更为智能。
2学术评价数据化的难点分析
21数据缺失或“隐形”
评价数据的缺失是指评价数据与需求存在错位,即有些评价需求缺少相关数据的支撑。评价数据首先要满足学术发展自身的需求,尽可能全面、准确、及时地反映学术状况和趋势。其次,评价数据要满足管理部门的需求,为其了解发展态势、判断发展水平、遴选人才、资源配置、制定政策等提供数据支撑。第三,评价数据要满足社会大众,尤其是学术成果直接用户或利益相关者的需求,他们需要了解科研机构实力、学者水平、成果质量等方面的数据。有些评价活动虽然发生了,如学位论文评审、期刊论文评审、学术会议交流等,但这些评价数据有些未被及时记录,有些记录被束之高阁再无人问津,姑且称之为“隐形数据”,本质上也是评价数据的缺失。
评价数据覆盖的评价对象不全及其引起的不同类型评价数据建设不均衡,是数据缺失的显著表现之一。2020年2月,教育部、科技部印发的《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》提出了“摒弃‘以刊评文”“破除SCI至上”“完善同行评价”等具体意见,侧面反映了这一状况:“以刊评文”现象說明期刊评价数据较充分、论文评价数据相对不足;“SCI至上”说明国内外期刊的评价数据不对等;“须完善同行评议”则说明引文计量为主的定量评价数据较多,但同行评议数据仍然较缺乏。
尽管目前我国的“千人计划”“杰出青年”“长江学者”等评价体系很多,但是关于学者的评价数据仍是相对缺乏的。2018年11月,教育部办公厅印发了《关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动的通知》,从一个侧面说明关于学者的评价数据仍然不能满足政府遴选人才的需求。
对于社会大众来讲,了解各领域的高水平学术成果,用于有效的生产转化、升学报考等需求的确切数据还很不足,这也是评价数据缺失的表现。学术评价数据化是对学术活动尤其是评价相关活动的记录、存储、描述,正是解决这一难点的基本思路。
22数据难获取
当前,中国的学术评价数据主要包括如下类别:
第一,图书馆馆藏或成果数据库,其中包括成果的出版信息和少量可用于学术评价的下载、使用等数据。此类数据有些是公共部门掌管,有些则为企业所有,此类数据的数字化程度较高、可获取性较强,且已覆盖绝大多数科研成果。
第二,引文数据库或评价数据库,通常由各类专业评价机构建设而成,总体上也覆盖了绝大多数正式发表的期刊论文,专著、报告、会议论文、学位论文等类型也有一定程度的涉及,有些评价数据库还涉及学者评价、机构评价、学科评价等数据,可获取性较强。
第三,科研管理部门、政府管理部门和学术发表载体(如期刊)的评价、考核与奖励数据,这部分数据尽管整体上数量不小,但是数据通常掌握在采集者的手中,其他人较难获取。
第四,互联网和社会网络评价数据,如各类学术社区的数据,具有一定的可获取性。
以上所列举的各类评价数据,掌握在不同主体的手中,这种分散状态导致的最大问题是有些数据难以被评价需求者获取。商业性的数据库可以通过交易获取,但是有些公共部门为了特定目标生成的评价数据如何提供给其他用户使用,尚无明确的机制或规程。然而,“大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用”[8],一旦解决了获取性问题,这样的评价大数据必然会对学术发展起到更为直接的推动作用。
23数据质量低
在大数据时代,尽管对数据细节的精确性要求降低了,但是对数据整体的质量要求仍然很高。谷歌利用大数据预测流感发生的错误率是传统预测方式的15倍左右[4],正说明即使是大数据,也不能过度强调混杂性而完全忽略数据质量低、甚至不可用的问题。数据的质量至少包括正确性和唯一性两方面,其中前者又包括完整性、一致性、密度等内容[1]。对于评价数据来讲,对数据质量的要求更高一些。
低质量的数据通常存在如下4类问题,评价数据也不例外,即数据错误、数据异常、数据非结构化和数据异构。数据错误是很常见的,但在大数据中只要控制在一定范围内就可以;数据异常可以分为语法类、语义类、覆盖类3类异常[1]。然而,数据错误和数据异常的存在要求数据化过程中必须进行数据清洗。
按数据的结构化程度可以分为结构化数据、半结构化数据和非结构化数据。不同于传统数据的特征之一是,绝大多数的大数据天生是非结构化数据或者半结构化数据,因而需要被有别于传统的信息处理、分析技术和工具[13]。严格来说,数据非结构化不是错误,但是对于数据的开发利用却有很多不便,这就需要通过ETL(抽取、转换和装载)使描述同样实体、事件的数据保持内在联系,还需要通过数据集成把不同来源、类型多样、不同介质的异构数据整合在一起,提升数据的价值。
24数据化成本高
数据化的成本高这一观点,本身就是一个错误的判断,究其根源在于观念和视角问题。因为无数的大数据实践已证明了大数据的规模效应和高效率,且能带来明显的成本降低的效果。如GroupM广告传媒投资管理机构,追踪该公司各站点节目收看的数据,通过纽约总部集中式的大数据追踪方法,追踪成本仅为原来的1/3多一点;Macys百货连锁公司,通过大数据可以将商品定价时间从27个多小时缩减至1个多小时,在硬件方面也降低了70%的成本;与10年前相比,今天有大量廉价和免费的大数据资源可供使用,如亚马逊的弹性计算云、谷歌的计算引擎、微软的Windows Azure;创业公司Recorded Future的CEO克里斯托弗·艾尔博格说:“我们使用的云计算实际上是相当昂贵的。但是,从一个架构到另一个架构的转换成本大幅下降,或许下降了一两个数量级。”[2]
对于学术评价数据化来讲,关于成本要考虑的一个关键问题是“谁来买单”。在学术评价数据建设中,既有商业机构也有公共机构,商业机构投资评价数据的欲望与其他所有大数据的企业一般无二。公共机构则不然,但公共机构组织的各类大学排名、学科评估、人才选拔等评价活动,同样也面临实实在在的影响力竞争。既然“逃避数据化走向衰落”[10]已是不可回避的规律,那么唯一的选择是“追求更强的数据力”。因此,评价数据建设各方的利益协调是必须要解决的难点。
25数据化意识不足
数据化的最后一个难点是意识不足。这似乎不能称其为一个问题,但绝不能视而不见。数据化意识至少涉及两个层面:一是前文提到的数字化与数据化的关系,此意识决定关注焦点是技术还是内容;二是如何看待数据的价值,这将决定包含第一层在内的大数据思维。这两层都涉及数据相关的权利问题。
在数字化时代,数据只是被交易的对象,其直接用途被重视但间接作用被忽视。而在大数据时代,数据在未来的潜在用途更为重要,这无疑改变了我们看待和使用数据的方式。数据的直接价值就像海洋表面能看到的冰山一角,而真实价值就像整座冰山,也就是说,大数据的综合价值比部分更有价值,而大数据价值链应由数据、技术和思维3部分构成[8]。我们要深刻地认识到,大数据特有的价值源于其规模效应,当数据量足够大时,其价值能够产生从量变到质变的效应[1],这样的价值认知意味着大数据与传统数据存在本质区别。
对于学术评价数据化来讲,评价大数据的价值不仅在于改变传统评价中依赖“拍脑袋”或“样本数据”的现状,转变到依赖更为可靠的“大数据”,更在于通过数据化清晰描述和记录学术发展的轨迹,从而为更准确地发现学术发展的规律、繁荣学术科研、促进学术成果的转化应用,提供源源不断的数据源动力。近年来,学术评价相关的管理政策一再强调“科学的量化评价”“加强定性评价”,这都需要来自学术评价数据化的有力支撑。
3学术评价数据化难点的应对研究
为应对上述学术评价数据化的难点,须从数据化的基本框架、学术评价体系变革、数据化推进策略3个方面着手,理顺策略、规避风险、推动实践。
31搭建学术评价数据化的基本框架
搭建学术评价数据化的基本框架,即明确数据化相关要素的组成、实现模式及相关作用机理,是在学术生态系统的内部深度认识数据化现状并明确其推进路径的必要过程。
311数据化的对象(即实体或事件)
明确数据化的对象,是对评价所涉及的学术生态系统要素及其关系的再梳理与优化过程。数据化是对实体或事件的描述和量化,那么首先就要确定学术评价的哪些实体或事件可以数据化、应该数据化。数据化的对象应全面覆盖学术生态系统的组成要素并保持关联度,包括学术成果及出版、学术活动与交流、学者及其重要行为、科研管理考核与奖励、成果普及与推广应用、学术服务等各类信息。目前,学术成果与出版信息的数据化程度相对较高,其余实体或事件的数据化程度尚与评价需求存在较大差距,其数据化也尚未得到充分重视,理应作为数据化实践的难点和重点。
312数据化的主体和用户
在数据化的推进过程中,主体和用户共同推进学术生态系统的升级换代。数据化的主体即学术评价数据化的实施者,包括数据的建设者和挖掘者。数据化的用户则是学术评价大数据的需求者或受益者。如前所述,目前,我国的学术评价数据实施者包括公共机构、商业机构,也包括学者群体。数据化的需求者或受益者则包括学者、管理者和社会大众,其中管理者至少分为科研管理者、公共机构管理者和企业管理者,社会大众则因需求复杂,组成群体也较为多样。
用户对公正、全面、准确的学术评价数据的迫切需求,是数据化发展的动力所在,也对数据化主体提出了更高的要求。其中,学者和科研管理者既是数据化的主体也是用户,是学术生态系统内生的数据化核心动力。评价数据化过程既会改变生态系统中各要素的组成结构甚至相互关系,也将改变学者的行为模式,推动学术研究向“数据密集式研究”发展[4]。
313评价数据的类型
数据类型存在差异,其数据化方式也可能不同。评价数据的分类方式很多,按其产生方式可分为内容数据、行为数据和环境数据[4]。其中,内容数据主要是指学术成果信息,行为数据主要是指主体对学术成果或实体的评议、引用、下载、交流等活动信息,环境数据是指科研管理政策与制度、网络和系统环境等方面的信息。当前,在学术评价的内容数据中,正式出版或发表的成果数据化程度较高,数据化难点在于非正式出版部分;行为数据中引用、下载的数据化程度相对较好,评议、交流等其他活动的数据化情况较差;环境数据则普遍缺乏有效记录和规范管理,可用性不足;三类数据之间的关联性更是堪忧。因此,推进评价行为与环境两方面较为缺失数据的数据化,是提升学术评价数据化整体价值的重心。
314数据的采集方式
数据采集是把相关的业务数据采集保存起来[1]。采集方式的设计集中体现在数据化的智能性和创新性。学术评价数据的采集方式至少包括如下3种:一是从学术成果出版物上采集,如出版信息、引文数据;二是网络抓取,如下载率、书评等;三是面向评价活动采集,如填写评分表。3种方式在科学性和可行性方面难度各异,更大的难点在于将3种方式采集的数据关联整合。大数据的理念倡导创造性地、低成本地将数据从最不可能的地方、从看上去没什么用处的事物中提取出来并转化成具有独特价值的信息。评价数据化就是要基于这样的理念,深入分析并发掘适合各类数据特征的采集方式,使学术评价数据建设更科学、更便捷。
315数据化的实施分层
可将数据化分为微观和宏觀两个层面。学术评价数据化的推行,在不同层面有不同的侧重和要求。微观层面的评价数据化是指单个数据化主体开展的评价活动,如某学者为某项研究而做的评价,某机构对内部科研绩效的评价等。微观层面的数据化要转变观念,擅于发现评价活动的数据价值和需求,注重对日常数据的采集和存储,逐步建立个人或机构的评价数据池。宏观层面的评价数据化则是针对整个学术生态系统而言的,涉及所有相关实体和事件的数据化,重点在于不同来源数据的集成和宏观学术管理政策的制定,着重解决数据权利、采集方式、集成要求等方面的问题。
32变革学术评价的体系和流程
数据化的过程不是孤立的,而是伴随着学术评价体系和流程的变革。只有充分认识变革的实质,才能使评价数据化真正落地。
321重构学术评价体系
大数据时代,评价数据化直接改变了学术评价方法与工具这一要素,但同时也将对学术评价目标、主体、对象、流程、政策与环境等评价体系中的其他各要素产生变革[14]。具体来讲,数据化使数据在评价中的重要性显著提升,并要求数据符合大数据的要求,更全面、更高质量、更易挖掘,相应地,评价数据统计分析的技术、方法和工具也要更先进、更丰富、更符合大数据的特征,这样的变化将从本质上改变评价主体的行为模式,使之从偏重主观或参考样本的决策模式,转变到大数据驱动决策的模式。为此,数据化必然使学术评价体系的其他要素根据新情况做出相应改变,形成新的学术评价体系框架。
322重塑学术评价流程
传统环境下的学术评价流程大体如下:先明确评价目标和对象,再构建评价指标体系,之后根据目标和体系遴选专家或按指标采集数据(或二者兼有),最后形成评价结果。这样的流程是以评价目的为导向、以指标体系为引领、以数据分析为辅助的。
数据化必将重塑学术评价的流程,新的流程将以发现数据的评价价值为导向、以基于数据的价值判断为引领、以对评价活动的规范和监督为辅助,从而满足各类评价目标,其显著特征是数据将处于评价流程更前端、更重要的位置。借鉴大数据分析生命周期的基本流程[13],数据化之后的学术评价流程如图1所示。
根据图1,基于大数据的评价流程可大致概括为:随时发现评价需求或潜在数据源,采集数据和优化工具,根据具体需求设计具体的评价指标体系,落实评价实施方案并得出评价结果。也就是说,不需为某个具体的评价活动专门采集和建设数据,评价数据建设将成为学术生态系统的一项常规活动。
33制定学术评价数据化的关键策略
面对学术评价数据化的难点,以下5个方面应作为推进数据化的进程的关键策略。
331评价数据采集常态化
数据采集常态化是指把评价数据采集作为数据化主体的日常活动,及时记录、采集、存储学术评价活动乃至学术活动的相关信息。建立这一机制旨在应对数据缺失和“隐形”问题。学术评价是学术生态系统和学术发展不可或缺的组成部分。由于二次利用(或称再利用)是大数据主要价值来源,评价数据理应被常态化持续采集,并作为推进学术发展、优化管理决策的依据。唯有如此,才能使学术数据实现“一次创造、多次利用”的潜在价值。因此,无论在微观层面还是在宏观层面,无论是商业机构还是公共机构,无论是学者个人还是管理部门,建立评价数据采集的常态化机制均是大势所趋。
332评价数据形态显形化
评价数据形态显形化是指评价数据“看得见、摸得着、用得上”,包含两层含义:一是指从已发生的评价行为或活动中,提取描述这些行为或活动的数据;二是指对已存在的数据进行处理,使之更规范、更可用,更好地支撑评价决策。“隐形”数据因其存在方式或形态问题,使利用者看不到其价值,所以通常不会去挖掘、开发、利用。显形化的关键在于擅于发现那些“隐形”数据,主要方式是改进数据的提取、转化、存储、清洗、检索、利用等技术,使数据价值显现,数据可视化、社交网络分析、云计算平台、Hadoop、Spark等均可作为可选的技术方法。
333评价数据存储集成化
数据存储集成化是指把不同来源的数据整合在一起,提供可以观察、统计、分析所有数据的统一视图的过程。这一策略主要针对评价数据存储分散、格式不统一导致的数据难获取问题。数据集成通常分为物理式和虚拟式2类;集成的方式包括联邦式、数据仓库和中介者3种[1]。对于评价数据来讲,数据集成首先要确定针对同一实体或事件的数据关联起来,即针对同一期刊、成果、机构、学者的不同评价数据之间相关联;其次要以成果为纽带,使学术生态系统中的数据实现有机关联,如论文发表的期刊、作者、作者机构通过论文关联起来,其附属的学科属性、地区属性等也随之产生关联。评价数据集成化可把数据碎片形成整张“图画”,使评价数据之水流动起来,形成既可表达学术活动又可供价值挖掘的大数据“活泉”。
334评价数据应用多样化
评价数据应用多样化是评价数据化的延伸,在基于大数据的学术评价新模式中,是指数据化的目标要面向多样化的目标场景,而非僵化地为单一场景而设计。为此,评价数据在采集和处理时应覆盖多种数据源和格式类型、多种评价活动相关的实体和事件、多种评价对象和评价主体的需求,有利于应用多种评价标准和指标体系、多种评价方法,并形成多样化的评价结果分析和展现方式。
335评价数据管理制度化
学术评价数据的管理尚无完善的制度可依,但管理规范和制度化应是数据化的目标之一。尽管人们已经在如火如荼地挖掘和享用大数据,但诸多相关问题仍待解决。如,数据属于谁?谁可以采集数据?谁可以掌控数据?谁可以使用数据?“学术乃天下之公器”的共识,使学术生态系统内的众多学者愿意为这一共同理想和建设学术评价大数据而努力。然而,在微观层面上,数据化的不同主体、用户的利益差异和冲突仍是客观存在的。其中最突出的是数据涉及的隐私权问题和数据相关的商业利益分配问题。
在通过制度对评价数据的权利进行界定时,笔者赞成这样的原则,即“只要未对实体造成侵害的数据行为,都不应该列入法律惩罚范畴”[10],因为“即使某项技术存在隐患,不管我们多么不安,它的某些好处总能迅速诱使人们接受它”[3]。也就是说,在推进学术评价数据化时,我们的制度应该倾向于尽可能地挖掘大数据的价值,而不是因为风险畏首畏尾,相关制度应着力使可操作的数据化行为落地、合法、有益。在制度化的同时也要着力打造大数据文化,包括对现状的紧迫感、重视创新和探索、相信技术是突破的源泉、具备奉献精神、实现扁平化管理以及精英式管理等[2]。
4结语
数据化是为了让学术评价主体更好地判断,所以评价仍然离不开评委的思考和决策,因为如何使用数据更重要。通过数据化推进大数据时代的学术评价,更为重要的目标是改进学术生态系统的运作模式,重塑学者的学术理想。长期以来,对学术生态系统各要素进行准确、及时、有效地评价,是学术评价研究者与实践者,乃至于整个学术界和相关管理者的终极追求,但学术评价的效果却不尽如人意。数据化是辅助评价决策的有力武器,是推动“以成果的质量和效用论英雄”的有效路径,也是间接推动学术生态系统中“学术评价民主集中制”的重要抓手。
学术界改革的首要任务是学术评价改革,因为评价(和奖励)是“指挥棒”。数据化并不等于“量多者胜”,而是要更全面、更充分地从数据中挖掘出价值。评价之权利,“还政”于学者。自由的学术研究,依靠更为充分的学术评价、更为客观的评价结果,这应作为促进学术生态系统健康发展的基本机制。通过大数据将学术发展的过去、现在和未来连接起来,用数據减少行政干预,充分发挥学者参与的评价数据化的作用,才能实现数据化的初衷。
参考文献
[1]覃雄派,陈跃国,杜小勇.数据科学概论[M].北京:中国人民大学出版社,2018:74-85.
[2](美)托马斯·达文波特.数据化转型[M].盛杨灿,译.杭州:浙江人民出版社,2018:74-76,145-149,169,188.
[3](美)艾伯特-拉斯洛·巴拉巴西.爆发:大数据时代预见未来的新思维[M].马慧,译.北京:中国人民大学出版社,2012:133-144,253.
[4]林建宁,周忠高.数据与社会科学发展[M].济南:山东人民出版社,2017:43,100-105,121.
[5]张风帆,夏园园,计彤.我国学术生态系统的自组织模型研究[J].科教文汇,2013,(10):104-105.
[6]杨英伦,杨红艳.学术评价大数据之路的推进策略研究[J].情报理论与实践,2019,(5):62-66.
[7]杨红艳.顺势而为:基于大数据的学术评价新模式探析[J].甘肃社会科学,2018,(3):76-81.
[8](英)维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:127-197.
[9](美)Brian W Kernighan.世界是数字的[M].李松峰,译.北京:人民邮电出版社,2013:1-20.
[10]姜浩.数据化:由内而外的智能[M].北京:中国传媒大学出版社,2017:28,113,161-199.
[11](美)道格拉斯·W哈伯德.数据化决策[M].邓洪涛,译.广东:广东人民出版社,2018:1-40.
[12](美)伊恩·艾瑞斯.大数据思维与决策[M].宫相真,译.北京:人民邮电出版社,2014:115.
[13](美)EMC Education Services.数据科学与大数据分析:数据的发现分析可视化与表示[M].曹逾,刘文苗,李枫林,译.北京:人民邮电出版社,2016:1-5.
[14]蒋玲,杨红艳.大数据时代人文社科成果评价变革探析[J].情报资料工作,2015,(3):92-97.
(责任编辑:陈媛)