基于数据挖掘的精准化办刊策略
2018-05-31侯丽珊
■侯丽珊
中国科学院计算技术研究所《计算机研究与发展》编辑部,北京市海淀区中关村科学院南路6号 100190
社会在高速发展中产生着海量信息和数据,近年来随着计算机硬件性能的提高和数据分析算法的不断优化,人们对数据的记录和挖掘能力越来越强,从大规模形式复杂的数据中发现并且使用真正有价值的信息成为可能,大数据已引起各领域的关注和重视。
科技期刊在运行过程中产生投稿量、录用率、审稿周期、编辑加工周期、论文阅读量、被引频次、下载量等数据。同时,科研人员在科研活动中也将产生研究兴趣、发表论文、投稿期刊、参加的会议、论文引用、合作伙伴等数据。这些科研数据被不同的出版平台、数据检索机构、学者交流平台、搜索引擎公司等收集和记录。因此,如何挖掘和利用这些数据已引起科技期刊界的广泛关注。
文献[1-2]研究了基于大数据的科技期刊数字化转型问题,认为大数据的应用离不开针对期刊的大数据平台,需集成在线投稿、审稿、网络跨媒体发布、智能选题、知识搜索、阅读行为监测和精准推送等功能。文献[3-5]指出在媒体走向高度融合的大数据时代,期刊编辑应该提升“精准”意识,在数据支撑下精准关注科研前沿热点话题、精准把握选题内容、精准控制出版时效,并对期刊学术质量进行及时反馈和精准评估。这部分工作侧重于概念和理念的讨论,实操性相对较弱。文献[6]从数据分析中审视英文科技期刊的发展问题,通过分析Web of Science数据,发现对影响因子起重要作用的文章类型及文章所在领域等,探索提高期刊影响因子的方法和途径,主要针对英文期刊,尤其是SCI收录期刊,比较方便地积累和使用Web of Science数据。文献[7-8]探讨利用中国知网(China National Knowledge Infrastructure,CNKI)数据优化科技期刊的选题策划,总结网络大数据在优化科技期刊选题策划中的应用;文献[9-10]则提出运用数据分析方法缩短科技期刊论文发表周期,指出制定期刊决策要以数据分析论证为前提。以上工作主要针对办刊过程中某一方面的应用数据进行分析。
充分利用大数据精准办刊、提高编辑人员数据发现和分析能力已成为期刊界的共识。但是,我国中文科技期刊大多处于“小、散、弱”状态,自身拥有的数据有限,难以获取大数据,并且缺乏有效的分析工具和挖掘手段,导致期刊决策中经验多、数据少;此外,除大型出版机构外,百度、Google、CNKI等机构拥有海量科研数据,包括科研人员、科研成果等,这些数据初衷并非针对期刊,但对科技期刊的精准决策大有裨益。本研究提出借助科研成果大数据分析和展示平台,结合期刊自身数据,对相关学者和稿件信息进行分析和挖掘的具体方法,为期刊在进行学者选择、专题策划、稿件筛选时提供精准的数据依据,从而提升期刊学术影响力。
1 学者分析
科技期刊在运行中常遇到稿件积压、审稿周期过长、期刊影响力指标下降等问题,原因复杂多样,但归根结底都与人有关,如编辑的工作方法和效率、专家审稿积极性、作者的文献引用以及读者对期刊的关注程度等。科技期刊的发展依赖于众多领域专家的支持,选择合适的专家、挖掘优质作者、为读者提供个性化服务是办好期刊的关键因素,所以对于科研人员的精准分析尤其重要。
本研究主要使用Google Scholar[11]、百度学者频道[12]、国家自然科学基金委员会(以下简称“国家基金委”)[13]、CNKI学者成果库[14]和《计算机研究与发展》自有数据积累,对《计算机研究与发展》的相关科研人员进行分析,挖掘科研人员的研究履历、研究动态、科研兴趣变化、学术影响力等指标,为期刊精准决策提供依据。
1.1 专家选择
科技期刊的发展离不开高水平专家的支持,邀请和凝聚有学术影响力且热心于期刊工作的专家成为期刊编委会成员、专辑特邀编委、审稿专家或者约稿对象等,是办好期刊的基本保证。
国家基金委的项目综合数据库[13]可查询所支持的项目和人才计划,比较受关注的数据为期刊所属学科的重点项目、重大研究计划,以及杰出青年科学基金、优秀青年科学基金等人才计划。通过此平台,期刊可了解当前比较重要的研究方向和比较活跃且有重要成果产出的科研人员。
CNKI是集期刊、会议、专利、标准以及海外文献资源于一体的具有国际领先水平的大型网络出版平台。CNKI推出的学者成果库也是较好的工具平台。成果库中包含当前知名学者的最新数据,如所在单位、研究方向、成果数目、h指数、被引/下载频次、篇均引用、学术影响力、活跃年份等(图1)。
图1 CNKI学者成果示例
h指数、被引/下载频次、篇均引用指标可反映学者发表论文的质量和学术影响力,而发文数量年度分布图则能看出该学者的活跃年份。由图1可知,清华大学的林闯教授从20世纪90年代就有科研产出,开始科研工作的年份较早,在2002—2009年比较活跃。经笔者验证,林教授自2010年起减少学生人数,2016年退休。此类学者比较适合聘请为期刊顾问,这是因为他们虽然不在科研一线,但了解学科全貌、学术资源丰富、号召力强。
有的学者2000年开始有论文产出,处于科研起步阶段,目前正是科研工作的黄金年龄,有项目、有团队、有精力,可考虑作为期刊的编委候选。
学者成果库中反映出的学者之间的合作关系、引证关系、承担的科研项目及其研究进展,也可作为期刊选择审稿专家、约稿对象的考量因素。
百度日均数据量已超过100 PB,相当于6000个中国国家图书馆的书籍信息总量。百度推出的学者频道[12]可统计学者的成果数量、被引频次、h指数、g指数,并给出学者历年成果数量的趋势图和历年被引量趋势图。该趋势图可分析学者科研产出的高峰期以及影响力的持续性。
由于统计源数据的差异,不同机构的学者库统计的数据可能并不完全相同,但所反映的规律和学者之间的比较关系基本一致,期刊可综合分析,选择适合自身刊物的数据库并长期关注。通过学者库,科技期刊可筛选出学术水平高、学术影响力强的学者,再结合期刊以及学者背景制定合作模式,比如拜访请教,争取聘为编委、审稿专家,团队约稿等。
1.2 作者分析
1.1节主要涉及科技期刊对本学科领域学者的跟踪关注和分析,而本节则依托大数据平台对期刊自有作者资源进行分析,针对特点鲜明的作者分别采取针对性措施并提供个性化服务。
图2 CNKI作者分析
图2所示为CNKI个刊影响力统计分析数据库[15]中《计算机研究与发展》的作者在本刊及其他期刊发表论文的情况。统计范围为CNKI及《中国学术期刊影响因子年报》统计源收录的所有期刊。本刊发文量指该作者于统计年在本刊发表文献数;总发文量指该作者于统计年在所有期刊发表文献总量;总发文中的疑似学术不端文献数指该作者在统计年发表的所有文献中,疑似学术不端文献的数量;总被引频次指该作者在统计年发表的所有文献自发表之日起至数据统计日止,被期刊、博硕士学位论文、会议论文引用的总次数;总下载频次指该作者在统计年发表所有文献自发表之日起在CNKI中心网站被下载的总次数。
CNKI统计了基本数据,期刊可据此挖掘出自身所需信息。《计算机研究与发展》根据此类指标综合推导出一组能够直接指导本期刊决策的指标。
指标1:本刊发文占比σ。该指标是指被统计作者于统计年在本刊发表的论文数量占其当年发表总量的比例,反映被统计作者对本刊的好感度,即他/她是否更倾向于把成果投向本刊。
σ=N/NT
(1)
式中N为被统计作者在本刊所发表论文的数量,NT为被统计作者的总发文量。
指标2:本刊被引占比α。该指标指被统计作者于统计年在本刊发表论文的被引频次占其当年总被引频次的比例,反映被统计作者对本刊的重视度,即他/她是否更倾向于把学术水平相对较高的成果投向本刊。
α=C/CT
(2)
式中C为被统计作者在本刊所发表论文的被引频次,CT为被统计作者所发表论文的总被引频次。
指标3:本刊下载占比η。该指标指被统计作者于统计年在本刊发表论文的下载频次占其当年总下载频次的比例,反映被统计作者对本刊的认知,即他/她是否更倾向于把相对热点和前沿的学术成果投向本刊。
η=D/DT
(3)
式中D为被统计作者在本刊所发表论文的下载频次,DT为被统计作者所发表论文的总下载频次。
一般而言,论文的下载量越高,其被阅读的机会越大,被参考和引用的可能性越大,所以指标2和指标3反映的规律通常较为接近。
笔者先根据被引频次对作者进行排序,再考虑本刊占比相关的3个指标,以分析出高被引学者对本刊的好感度和重视度(图3)。
图3 《计算机研究与发展》作者分析数据
对本刊好感度较高的高被引作者,综合学者库分析结果,可成为期刊的候选编委,期刊编辑部应该尽力维护好此类高质量作者资源;对本刊好感度一般的高被引作者,则可发展其成为约稿对象;而对学术不端记录较多的作者,期刊应重点关注和防范。
除高被引作者,零引作者也是办刊者重点关注的对象。据统计,大部分科技期刊零引比例超过1/3,计算机领域国内学术期刊影响因子最高者也不超过2。所以,对零引作者的分析有助于期刊发现原因,采取针对性措施,为作者和读者提供个性化服务,从而提高期刊影响力。
图4所示为从CNKI个刊影响力统计分析数据库中截取的《计算机研究与发展》零引作者片段。
图4 《计算机研究与发展》零被引作者分析
对零引作者需区别对待,通过总发文量、篇均被引频次等指标综合分析原因:(1)有的作者已离开科研岗位,无后续成果产出;(2)论文质量确实不高,参考价值一般;(3)期刊后期宣传和推广工作不到位,未及时推送至合适的读者群体中;(4)一部分作者科研工作严谨,有后续产出,这部分作者需要期刊适当提醒作者对这篇文章成果的引用。
1.3 读者分析
对科技期刊而言,稿件内容、读者均非常重要,期刊需分析读者、了解读者,从而适应读者。CNKI个刊影响力统计分析数据库可分析各机构对《计算机研究与发展》论文的下载情况;期刊在微信、微博等各种媒体发布内容后,后台数据也可以显示出读者群体对期刊发布话题的关注情况(图5),包括话题的浏览、转发和评论,读者的地区、性别、阅读来源以及使用终端等。这些数据为期刊定制个性化读者服务内容提供了支持。
图5 微信后台读者分布数据。(a)期刊微信阅读来源分布;(b)读者地区分布
期刊不仅要以各种渠道和媒介尽快将内容传播出去,还需要关注读者是否阅读、谁阅读、通过何种途径阅读、读后有何反馈等。只有不断收集并分析这些数据,才能把握读者兴趣,筛选出读者关注的议题,有针对性地实现个性化精准服务。
2 刊物分析
稿件质量是期刊品质的核心,稿件分析是期刊决策的重要内容。除对期刊相关的专家、作者和读者进行分析,提供个性化服务外,办刊者也需跟踪和了解刊物的整体状况,基于合理的数据统计和分析,对刊物发展趋势进行总体把握,更有预见性地指引期刊发展。
图6 发文机构分析
图6所示为CNKI个刊影响力统计分析数据库中《计算机研究与发展》发文机构分析数据。结合中国科学技术信息研究所每年发布的机构发文排名和机构成果影响力排名,国防科学技术大学、中国科学院计算技术研究所、中国科学院研究生院等机构发文较多,而研发出“神威·太湖之光”的国家并行计算机工程技术研究中心、BAT(Baidu,Ali,Tencent)等高技术互联网企业在《计算机研究与发展》发文较少,期刊编辑部需要进一步分析原因,有针对性地展开工作。
百度指数设有刊物对比功能,可分析给定时间段内刊物的舆情,对多种同类期刊进行对比,也可分别检测个人计算机(Personal Computer,PC)趋势、移动终端趋势等,从而分析读者获取期刊信息途径的变化和对期刊关注程度的变化。
百度指数功能也可用于分析研究话题的舆情趋势(图7),洞察本学科最新动向,把握学科热点,从而帮助期刊进行专刊选题策划,确保选题的先进性和前瞻性。
图7 百度话题趋势图
百度、CNKI等大数据平台并非专为科技期刊定制,期刊需将其与自有数据相结合,通过数据挖掘与分析,精准定位期刊问题,为期刊进行学者选择、专题策划、稿件筛选提供精准数据依据,从而提升期刊的学术影响力。
《计算机研究与发展》通过3年的探索实践,编委工作热情增加,一批优秀的青年学者开始参与到期刊工作中,并带动一批科研人员关注和支持期刊发展,共组织发表22个前沿专题,吸引大量优秀稿件。《计算机研究与发展》文章的下载量、被引频次等指标明显提升,以CNKI统计为例,期刊网络下载量以平均每年2万次的速度持续增长,目前已超过22万次,被引频次和影响因子也持续上升,已经连续两年突破历史纪录。
3 结束语
本研究以百度学术、CNKI统计分析数据库等大数据平台为例,结合《计算机研究与发展》工作实践,总结从基本数据分析寻找影响期刊决策关键指标的方法,提出要充分使用有利于期刊决策的数据分析平台和工具,基于合理的数据统计和分析为期刊决策提供客观依据,实现基于大数据挖掘的精准办刊思路。
[1] 易基圣. 基于大数据的科技期刊数字化转型研究[J]. 长江大学学报(社科版),2014,37(8):154-156.
[2] 张秀梅,刘俊丽. 数字化环境下科技期刊的发展策略与实践——以医学科技期刊为例[J]. 中国科技期刊研究,2015,26(7):710-714.
[3] 王绍林. 浅谈大数据时代学术期刊编辑的精准意识[J]. 文教资料,2015(36):184-185.
[4] 谢飞凤,张俊祥,季群,等. 大数据背景下科技期刊的“精准出版”[J]. 科技与出版,2016(7):90-93.
[5] 吴美英. 大数据时代学术期刊编辑素质重构与能力提升[J]. 出版科学,2017,25(1):47-51.
[6] 郑福军. 从数据分析看《生物化学与生物物理学报》(英文版) 的发展[J]. 中国科技期刊研究,2013,24(4):765-767.
[7] 颜廷梅,任延刚. 网络大数据在优化科技期刊选题策划中的应用与实践[J]. 中国科技期刊研究,2016,27(12):1259-1262.
[8] 张凯. 基于百度指数的科技期刊影响力大数据分析——以《中华医学杂志》为例[J]. 中国科技期刊研究,2016,27(7):779-784.
[9] 龙静,孙云志. 运用数据分析方法缩短科技期刊论文发表周期[J]. 中国科技期刊研究,2016,27(4):363-368.
[10] 白娅娜,武英刚,宫在芹,等. 数据挖掘在专刊组稿策划中的应用[J]. 编辑学报,2016,28(6):550-553.
[11] Google. Google学术搜索[EB/OL]. [2018-02-25]. https://scholar.google.com/.
[12] 百度. 百度学术[EB/OL]. [2017-03-16]. http://xueshu.baidu.com/.
[13] 国家自然科学基金委员会. 基金项目综合查询[EB/OL]. [2017-03-16].https://isisn.nsfc.gov.cn.
[14] 中国知网. 中国知网学者成果库[EB/OL]. [2017-03-23]. http://papers.cnki.net/PaperView.aspx.
[15] 中国知网. 中国知网影响力统计分析数据库[EB/OL]. [2017-03-23]. http://www.jif.cnki.net/Core/Journal/Default.aspx?pykm=JFYZ.