期刊编辑数据素养研究
——以B学报近年来载文情况为例
2018-06-23李世红
李世红
(北京工业大学 学报编辑部,北京 100124)
当今社会正处在一个数据无处不在的时代,一方面,人们在工作、学习、生活中产生了大量的数据;另一方面,人们又要依赖大量的数据支撑工作、学习和生活。面对“类型多样、来源丰富、数量庞大、价值巨大的数据社会,对数据的获取、管理与应用就成了大数据时代人们需要必备的素养之一”[1]117。大数据时代,各个行业的从业人员都需要具备数据素养。作为从事期刊出版工作的编辑人员,要使自己编辑的期刊成为反映国家政治、经济、社会、科技、文化建设创新发展的重要战略媒体,除具备基本的政治素养、思想素养、文化素养和职业素养外,还应该具备一定的数据素养,以便应对大数据信息时代的挑战。
一、数据科学与期刊编辑学
数据科学于20世纪60年代被提出,定义为处理数据的科学[2],但当时并没有引起人们的关注,直到最近流行一个新名词——数据科学家之后,数据科学才真正成为一门新兴的学科。现在它之所以热门,主要是因为数据的广泛性和多样性以及数据研究的共性。当今社会的各行各业都会产生各种分析数据,一方面这些数据类型繁多,不仅包括传统的结构化数据,也包含非结构化数据,如网页、文本、图像、语音、视频等;另一方面,社会的复杂性决定了行业的决策必须依赖于繁多复杂的数据。各行各业对数据的大量需求,使得数据科学受到社会的广泛关注。期刊编辑学中的期刊数据库使用的是数据科学的可视化数据,相关的信息论方法和期刊影响力指标定量分析体系都依赖于数据分析技术,这是期刊界数据科学的核心内容之一。
(一)数据科学及其特征
与数据科学密切相关的一个概念是数据科学家。数据科学家通常是指用统计分析、机器学习、分布式处理等技术,从大量数据中提取对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才[3]。数据科学其实是一个理、工、文综合的新兴交叉学科,主要研究内容包括用数据的方法研究科学和用科学的方法研究数据两个方面。用数据的方法研究科学,涵盖生物信息学、天体信息学、数字地球、数据可视化等学科;用科学的方法研究数据,涉及统计学、机器学习、数据挖掘、数据库等技术手段。这些内容都是数据科学的重要组成部分,涉及多个学科,但只有把它们有机地整合在一起,才能形成整个数据科学的全貌[4]。
数据科学的第一特征是通过数据的方法研究科学。例如,开普勒根据天文学家第谷的大量观察数据,总结出了关于行星运动的三个定律。
数据科学的第二特征是用科学的方法研究数据。即通过数据采集、数据存储、数据分析等研究数据,首先确定具体的目标函数以及研究的主要目标或要达到的效果,然后分析影响目标函数的主要因素及其表现形式,如表格、点集、时间序列、图像、视频、网络数据、随机噪声数据等,最后再使用已有的科学方法或理论研究。
数据科学的第三特征是数据分析。数据分析非常难实现,主要是因为:(1) 数据量庞大。数据量大带来的挑战是计算问题,因此一些随机计算和分布式计算方法就显得尤为重要。(2) 数据维数高。维数高给人们带来的是维数灾难,即模型的复杂度和计算量随着维数的增加而指数增长。(3) 数据类型复杂。数据可以是网页或报纸,也可以是图像、视频,多种类型的数据给数据融合带来了困难。(4) 噪音大。数据在生成、采集、传输和处理等流程中,均可能被噪音干扰,这些噪音的存在给数据的清洗和分析带来挑战。
此外,数据科学还有大数据的价值特征。在数据爆炸的时代,大数据的广泛应用激起了全世界人们的兴趣,具有巨大的价值前景。
(二)数据科学广泛的社会应用
随着信息化时代数据科学的资源性特点逐渐显露,数据科学在社会生活中的作用越来越大,“用数据说话”已成为人们进行科学研究、管理社会、认识世界的一种新方法。信息化时代,数据成为自然和社会生活的一种表现形式,目前大数据研究已经触及政治、经济、文化、教育、科技等社会领域,人们已习惯用数据记录工作、生活、社会发展等行为信息。现实世界中的事物和现象被以数据的形式存储到计算机中,这些数据被快速、大量地生产和再存储。可以说,信息和数据的传播速度和范围呈现出难以遏制的发展趋势。“数据被认为是一种与能源和材料相提并论的资源,其所蕴含的价值难以估量”[5]33,成为一种重要的战略资源。正如矿产资源需要挖掘、提炼加工后才能变成黄金、钻石和石油,庞大的数据也需要通过大数据技术进行知识挖掘,才能实现其价值[6]。
(三)数据科学与期刊编辑学
数据科学的信息技术给人们的社会生活和感知世界带来了巨大的便利,互联网、App新闻客户端、微博、微信等新媒体形态都以数据的基础信息作为技术支撑,改变了人们对信息的接收方式和习惯[7]5。期刊编辑学作为一门具有广泛社会性的学科,其发展与社会科学、自然科学有着千丝万缕的联系,所以,它的发展离不开对数据科学相关方法的借鉴和吸收。尽管数据科学和期刊编辑学之间的关系这一概念没有被正式地提出,但实际上它们之间的密切关系在数据科学这门学科出现之前就已经存在。期刊编辑学中重要的载体——期刊或期刊数据库,都是数据科学中数据的重要表现形式,同时,期刊编辑学的期刊可视化数据库的研究方法和信息计量学研究方法也为数据科学提供了重要的方法论研究技术。
目前,中国科学文献计量评价研究中心及清华大学图书馆研制发布的“中国学术期刊影响因子年报”,中国人民大学人文社会科学学术成果评价研究中心及中国人民大学书报资料中心研发的“复印报刊资料转载指数排名研究报告”,南京大学中国社会科学评价中心开发研制的引文数据库“中文社会科学引文索引(CSSCI)”(用于检索中文社会科学领域的论文收录和被引用情况)等,对国内期刊进行质量评价所采用的重要工具就是期刊文献计量学。其核心就是对所采集的大量数据进行有目的的分析,建立期刊影响力定量综合评价指标——期刊影响力指数。譬如,相关学者利用CSSCI数据库,在学术研究、期刊测评、机构评估等领域对我国人文社会科学的发展水平和影响力现状进行了广泛、深入的研究,利用CSSCI的数据挖掘技术,充分发挥了学术数据的应用价值,为学术研究和学术创新提供了更好的数据支撑。因此,期刊影响力指标需要借用统计学方法对数据进行定量分析,这是数据科学的研究内容,也是数据科学如何科学评价的关键所在。这就要求在信息化时代的发展背景下,期刊编辑应该具备一定的数据素养,以便从宏观上分析和把握期刊的发展趋势。
二、编辑的数据素养
目前,从笔者对网刊文献的检索结果看,国内学者对数据素养的研究,多出现在图书馆信息教育的系列研究中,而编辑学中对编辑自身的数据素养进行明确研究的则很少。在社会生活中,行业间的研究既有个性,也有共性,尽管可查文献中少有编辑专门研究编辑的数据素养,但还是有很多编辑在自觉地使用数据科学的方法分析研究期刊的发展现状。
数据从狭义上讲就是数值,是事物的量化表示,是人们通过观察、实验、调查统计或计算得出的结果。广义的数据概念不仅指具体的数值,还包含以计算机为工具的所有二进制运算产生的内容[8]76,如网页、文本、图像、视频、语音等。数据素养的概念最早起源于美国教育界,是近几年才提出的,其与早先学者提出的计量素养和统计素养有着密不可分的联系,但又存在着本质的差异特性,数据素养是信息时代的重要产物,是数据科学的重要组成部分。目前,学者还没有对数据素养概念形成一个明确的共识。“数据素养”通常被叫做“数据信息素养”,主要指研究者在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力,以及研究者在数据的生产、管理和发布过程中的道德与行为规范[9]29。
根据学者的研究成果,本文将编辑的数据素养归纳为数据意识、数据技能和数据文化(包括伦理与道德)3个方面。数据意识要求编辑对数据敏感,能认识到数据的价值,意识到数据在人们的生活、生产实践和科学研究中发挥的重要作用。数据技能要求编辑具备一般数据的获取、存储和处理能力以及有用数据的辨识能力,包括数据检索、数据统计、数据处理软件操作、数据格式转换等。也就是说,编辑应能利用数据科学方法解决期刊编辑问题,通过对期刊数据的统计分析处理和运算,使用数据科学中的方法和技能得出科学的结论,解决期刊发展中存在的问题,以提升期刊的质量和办刊水平。数据文化是指编辑在工作中要崇尚科学数据,能用科学数据推动编辑工作进程,形成收集、使用和共享数据的文化理念。数据伦理与道德是指合理、合法地获取并使用数据,对数据的发布与使用应遵守相关社会法规与规范。对于期刊编辑来说,数据伦理与道德应用典型的例子就是在处理稿件时,编辑应鼓励作者尊重别人的劳动成果,合理引用所阅读的文献资料。
三、数据科学方法在期刊编辑学中的应用
我国国内当前最大的期刊全文数据库是中国知网,其在影响力、内容覆盖面、检索途径等方面均具有明显的优势。本文以 B高校学报2001―2016年的刊文情况为例,选择CNKI数据库作为主要数据源,以期刊质量水平为目标函数,用数据科学的研究方法,分析B学报栏目建设、基金支持、作者群分布等情况,并通过影响因子、他引总引比、总被引频次、Web即年下载率等为质量函数核心元素变量评价,总体把握B高校学报的发展态势,探讨相关发展对策。
(一)B高校学报2001―2016年刊文情况
创刊数十年来,B学报依托“当代社会研究”和“经济与管理研究”两个较强势的栏目,立足本校,辐射校外,刊发校内外名家大作,两个栏目先后获得“北京市社科学报名栏”和“全国理工农医特色栏目”荣誉称号,特色较为突出,有一定的社会影响力。B学报于2008―2013年曾连续3次入选CSSCI扩展版来源刊,后因组稿乏力,收稿质量降低,于2014年退出CSSCI扩展版来源刊。面对发展的瓶颈问题,B学报及时调整栏目,联合校内外相关专业知名教授,举办小型的专业交流研讨会,组织出版专题,于2017年再次入选CSSCI扩展版来源刊。目前,学报社会声誉较好,尽管发展之路曲折起伏,但学报的总体发展趋势是向上的。鉴于此,笔者对 B学报从2001―2016年刊文的相关情况作了分项统计。具体分析如下:
1. 期刊栏目建设
B学报16年来共发文1335篇,总发文、被引、零被引、摘编、转载等项统计细分如表1所示①。由统计数据可知,B学报刊文被引率约占刊文总数的 75.21%,零被引用率约占刊文总数的24.79%,被摘编、转载率约占刊文总数的9.51%;“当代社会研究”和“经济与管理研究”两个栏目比较强势,栏目文章的被转载摘编数量相对突出;“政治学研究”“法律研究”“文学研究”“哲学研究”“历史研究”“高等教育与管理研究”等学科研究栏目,在理工科院校中不是强势学科研究,特色不突出,社会影响力小。
表1 2001―2016年B学报发文相关项统计 /篇
2. 基金项目支持力度
2001―2016年,B学报发表基金项目的文章情况如表2所示。统计数据显示,B学报发表国家级项目论文有176篇,省部级项目论文有337篇,校级项目论文有105篇,可见论文资助力度偏重于省部一级的科研项目。另外,在统计过程中笔者也发现,论文被转载、摘编及被引用与基金资助关系不大,很多选题很好、没有基金项目资助的文章依然被读者大量下载和引用,被相关机构关注。
3. 第一作者群特征
基于数据科学的统计方法,选取B高校学报2001―2016年载文第一作者作为期刊质量分析的核心指标。对1335篇文章的第一作者群按职称和学历层次分布进行的统计(如表3所示)显示,作者群按发文量比例从大到小的排序为“讲师、副教授、教授/研究员、硕士生、博士生”。从作者层面看,期刊知名度的提升主要依赖于专家教授的高质量论文,但从B学报作者群发文量比例按从大到小的排序结果看,作者群中发文量排第一位的是讲师,第二位的是副教授,教授和研究员投稿位居第三;在研究生群体的投稿中,则是博士生稿件少于硕士生稿件。这表明B高校学报来稿质量结构并不理想,学术质量的提升没有较大的突破。
表2 2001―2016年B学报基金项目发文统计 /篇
表3 2001―2016年B学报第一作者群发文量统计
基于上述分析可知,提升B学报办刊的质量水平应依赖于教授(研究员)的稿源、国家基金资助的稿源以及高水平的被引用论文,因为这些元素变量在学术期刊的质量评价中具有较高的权重。
(二)B高校学报2001―2016年期刊质量函数元素变量分析
笔者根据中国学术期刊影响因子综合引证年度报告提供的数据,使用有用数据筛选的方法研究编辑学技术,以B学报的影响因子、他引总引比、总被引频次、Web即年下载率等核心指标作为期刊质量函数元素变元,分析结果如表4所示。
由表 4可以看出:(1) B学报的影响因子于2002年开始逐步上升,2006年达到峰值,2007―2008年滑落,2009年至今总体处于升势;(2) B学报的总被引频次于2002年起趋于升势,2014年达到峰值,目前有所滑落;(3) B学报的他引总引比数值于创刊后至2009年达到峰值,后逐渐滑落至2013年的谷值,但2013年以后此项数据又重回升势;(4) B学报Web即年下载率在2001年创刊后大体处于升势,至2009年达到峰值,此后缓慢滑落,于2014年至低谷,目前有所回升。本研究所选取的4项核心指标显示,B学报的期刊质量在 2012―2015年变化起伏波动明显,数据的异常波动与B学报当时的发展状况有直接关联,应引起B学报期刊编辑的重视。
表4 B学报2003―2016年载文情况分析
通过数据科学的研究方法对表4数据的分析可以预测,近期B学报的期刊影响因子会有所提升,但在0.25附近波动;总被引频次有提升的空间;总被他引频次将会稳步增长;Web即年下载率将会在50%附近波动。
(三)提升学报期刊质量的建议
前文数据也直观反映出学报质量优势的保持容不得半点虚假和怠慢,需要精心经营。学报编辑应视期刊质量如生命,守住自己的本分,保持自己的初心,在办刊中做到以下几点:注重推进栏目创新,做好期刊选题策划,努力发掘具有理论价值和现实意义的选题;拥有由知名学者参与的富有活力的作者队伍,以保证论文质量的提高;利用网络平台和新媒体的传播优势,加强期刊的宣传力度,鼓励作者向同行及研究团队推广自己的研究成果,扩大期刊论文的引用率;依托本校的学术资源和科研机构,举办小型专业研讨会,通过学术交流活动结识新的专家;自觉培养科学数据意识,运用数据分析科学把握期刊的发展动态,保持期刊发展的生命之树常青。
“数据是人们认知活动的产物,是对客观事物的反映,是对事物现象进行表征的一种逻辑语言,科学数据由于其简单性、精确性、普适性,成为进行科学研究的工具之一。科学数据素养在科学研究生命周期中的影响作用日益凸显,已经成为科研人员提升科研创新能力的必备因素和核心竞争力。”[10]58数据科学的重要性在当今时代已不言自明,因此学术期刊编辑既要拥有过硬的专业知识、编辑学知识,还需具备一定的编辑数据素养,善于搜集积累数据,通过数据分析有效地把握期刊的发展态势,自如地应对大数据时代的挑战。
注释:
① 总发文、被引用及零被引用结果是根据CNKI统计数据统计的,被摘编、转载篇目是根据中南财经政法大学图书馆信息检索中心统计报告统计的。
[1] 张晨.大数据时代的图书馆与数据素养教
育[J].图书与情报,2014(4):117–119.
[2] 数据学和数据科学[EB/OL].(2015-11-30)[2017-10-20].https://baike.so.com/doc/109142-115165.html.
[3] 100offer程序员拍卖.站在大数据金字塔尖的人[EB/OL].(2015-06-17)[2017-10-20].https://www.jianshu.com/p/1f2e2b10a9b0.
[4] 鄂维南.数据科学的基本内容[EB/OL].(2017-03-30)[2017-10-20].http://mt.sohu.com/20170330/n485655812.shtml.
[5] 刘红,胡新和.数据革命:从数到大数据的历史考察[J].自然辩证法通讯,2013(6):33–39.
[6] 李京文.大数据研究与应用[EB/OL].(2017-03-30)[2017-10-20].http://zuciwang.com/show/373182.html.
[7] 沈浩,谈和.媒体人该怎样理解“大数据”[J].新闻与写作,2015(11):5–10.
[8] 刘彩娥.国内高校数据素养教育的问题与对策[J].北京工业大学学报(社会科学版),2015(3):76–80.
[9] 张静波.大数据时代的数据素养教育[J].科学,2013(7):29–32.
[10] 郝媛玲,沈婷婷.数据素养及其培养机制的构建与策略思考[J].理论与探索,2016(1):58–63.