APP下载

大数据时代出版领域研究现状及趋向
——基于CSSCI期刊(2008-2017年)的知识图谱分析

2018-04-23任娟

出版与印刷 2018年1期
关键词:次数聚类论文

任娟

一、问题的提出

从2012年开始,“大数据”这一概念逐渐在国内学术界被广泛地讨论和引用。2012年7月,信息管理学者、阿里巴巴集团副总裁徐子沛的著作《大数据:正在到来的数据革命》引领了中国社会对大数据领域的关注,展开了业界对大数据战略、数据治国和开放数据的讨论[1]。近年来,大数据对各行各业正产生着巨大的影响,出版业也不例外,出版业的编辑、销售、市场、组织设计等诸多环节和流程正受到大数据产生的直接或间接影响[2]。而从学科角度来看,大数据时代的出版学科研究也同样面临着更多的挑战与机遇。在数据密集型科学研究范式这一新范式的产生背景下,出版学科的研究对象、研究内容、研究方法由于本身学科的发展和外部环境变化的共同推动也处在不断演化的过程中。我国出版学近五十年的发展历史,形成了自己独特的学科结构。近几年来,大数据的产生为出版学科的研究提供了创新的可能,有学者开始从理论上不同层面地对以数据驱动为典型特征的时代背景下出版领域的学科结构、研究体系与新技术、新方法相结合进行研究[3,4],但使用文献计量学、知识图谱等方法对出版领域的研究热点、主题分布及其历史演进方面的研究还比较缺乏。

因此,建构国内出版领域的研究知识图谱,探讨其主要研究问题,帮助我国出版领域的研究者从宏观层面对整体研究态势进行明晰的把握,具有一定的理论价值与现实意义。本文拟借助文献计量学的工具和方法对近十年的出版领域和大数据领域的研究状况进行分析,并在此基础上将出版领域与大数据主题进行结合分析,探析大数据时代出版领域的研究趋向。

二、数据来源与选择

本文以中国知网(CNKI)的CSSCI来源(含扩展版)期刊为数据源,选择的时间范围为2008年1 月1 日至2017年12 月31日。按照分类检索策略,选择“信息科技”类下的“出版”进行检索以获取该类下的文献;按照主题检索策略,以“大数据”为关键词获取大数据研究领域近十年的文献;按照分类与主题组合检索策略,在“出版”类中以“大数据”为关键词以获取该方向近十年的文献。

三、研究的总体分布情况

1.时间分布及其发展状况

图1—图5分别显示了2008年至2017年中国知网中“出版”类别、“出版”类别中的三个分支“编、印、发工作”(即“编辑工作”“印刷工作”“发行工作”)、“大数据”主题、“出版”类别下的“大数据”主题(后文简称为“出版中的大数据”)以及“编、印、发工作”类别下的“大数据”主题研究论文发表的时间趋势分布。

图1 “出版”类论文发表年度趋势

图2 “编、印、发工作”论文发表年度趋势

图3 “大数据”主题的论文发表年度趋势

图4 “出版中的大数据”论文发表年度趋势

图5 “编、印、发工作”类下的“大数据”主题论文发表年度趋势

在“出版”类别下,2008—2017年这十年间总共发表论文33 234篇,年均学术论文发表数量为3 323.4篇,呈现出一种年发文量相对稳定的态势。 “编、印、发工作”三个分支,在过去十年间共发文12 568篇,占到“出版”类论文发表量的37.8%左右。“大数据”是从2012年在学术领域迅速发展起来的一个研究热点,通过在中国知网中CSSCI来源(含扩展版)期刊中对“大数据”进行主题检索发现,过去十年共发表6 584篇论文。第一篇论文发表在2010年《现代图书情报技术》期刊上,题为《搭建基于云计算的开源海量数据挖掘平台》。2013年至今,大数据研究的论文数量呈急剧增长态势,2017年的发文量已经接近2 000篇。“出版中的大数据”研究始于2013 年。2013年共发表了21 篇相关论文。2013—2017年这五年中,相关研究成果增长快速,截至2017年12月31日,共发表403篇论文。“编、印、发工作”类别下的“大数据”主题研究也始于2013 年。2013年共发表5 篇相关论文。这5篇论文均出现“大数据时代”关键词,分别发表在《出版发行研究》和《编辑学刊》期刊上,体现了编辑出版学科领域的研究者开始对大数据研究的关注。2013—2017年这五年中,该类别下对“大数据”主题的研究逐步发展,截止到2017年12月31日共发表103篇论文。

2.论文发表的重要基金资助分析

科学基金资助的水平和强度,在某种程度上反映了现有研究水平和未来研究发展的方向。国家社会科学基金、国家自然科学基金和国家科技支撑计划资助均属于国家级别且有着不同的研究目标。其中,国家社会科学基金和国家自然科学基金主要是以某一领域科学发展的基础问题,探索客观世界的普遍规律为研究目标;而国家科技支撑计划是以解决某一重大的技术问题,并能够产生较大的社会经济效益为目标。考虑到中国知网中论文的基金资助级别和来源的影响力,本文在“出版”“编、印、发工作”“大数据”“出版中的大数据”这四类研究中分别筛选出受国家社会科学基金、国家自然科学基金和国家科技支撑计划资助的发文量进行分析(见表1)。分析结果显示:国家社会科学基金是资助这四类研究成果发表的主要机构,对应类别的发文量占比分别为3.44%、2.20%、16.19%和6.95%;国家自然科学基金和国家科技支撑计划对“出版”“编、印、发工作”和“出版中的大数据”这三类研究的资助比例均低于1%;“大数据”研究成果受上述三类国家级基金资助的比例最高。

表1 “出版”“编、印、发工作”“大数据”“出版中的大数据”四类研究的基金资助分布

3.高被引文献来源情况分析

为进一步对有代表性的文献进行分析,本文在“出版”类别下2008—2017年间发表的33 234篇论文基础上,选取“2017—2018年度CSSCI来源期刊目录”中“新闻与传播”类15种期刊(即《编辑学报》《编辑之友》《出版发行研究》《出版科学》《当代传播》《国际新闻界》《科技与出版》《现代传播(中国传媒大学学报)》《现代出版》《新闻大学》《新闻记者》《新闻界》《新闻与传播研究》《中国出版》《中国科技期刊研究》,以下简称“15种核心期刊”)为被引文献来源进行高被引文献的检索。15种核心期刊2008—2017年总发文量为21 660篇(见表2)。

表2 “出版”类别下15种核心期刊2008—2017年发文量分布情况

首先,根据普赖斯定律确定高被引文献的方法[5],被引频次以上的文献为高被引文献,其中,ηmax为最高被引频次。根据所分析的文献计算得出N=11.31,即被引频次≥12次的文献为高被引文献。然后根据检索策略,结果得出中国知网中15种核心期刊中高被引文献共有1 748篇,占“出版”类总发文量的5.26%。表3分别列出了“出版”“编、印、发工作”“大数据”“出版中的大数据”四类研究的高被引论文中发文量排名top20的来源期刊。其中,“出版”“编、印、发工作”和“出版中的大数据”三类研究的高被引论文的来源分布比较一致,主要集中在《编辑学报》《中国科技期刊研究》《出版发行研究》《科技与出版》《中国出版》《编辑之友》《出版科学》《中国编辑》《现代出版》等出版类期刊上。而“大数据”研究的高被引论文的来源分布相对分散,主要分布在图书情报类、新闻与传播类、经济管理类等期刊上。

表3 “出版”“编、印、发工作”“大数据”“出版中的大数据”高被引论文中发文量top20的来源期刊

四、研究热点分布及趋势分析

1.“出版”研究的热点分布及趋势

本文利用CiteSpace软件对“出版”研究的关键词进行词频统计、共现分析和聚类分析,初步归纳出近十年来“出版”科学研究中的热点和研究现状。其中,“出版”研究的关键词共现聚类网络如图6所示,被引次数top200论文与被下载次数top200论文的关键词共现聚类网络如图7、图8所示。“出版”研究的高频关键词如表4所示。通过分析发现,目前我国出版领域的研究方向主要集中在数字出版、科技期刊和学术期刊、出版业、著作权与版权、编辑工作、选题策划等。

图6 “出版”研究的关键词共现聚类网络图

图7 “出版”研究的被引次数top200论文关键词共现聚类网络图

图8 “出版”研究的被下载次数top200论文关键词共现聚类网络图

其中,针对科技期刊和学术期刊以及数字出版的研究在“出版”类研究中所占比重较高,研究内容主要包括科技期刊和学术期刊从传统出版向数字出版转型发展的对策、影响力提升路径及评价体系等,以及不同类型的期刊在移动互联网时代如何利用新媒体平台创新编辑加工流程、出版传播方式及运营和服务模式等。表4所列的高频关键词中,排在前三位的“科技期刊”“数字出版”“学术期刊”的词频分别为1 780、1 044、959,占“出版”类研究的5.36%、3.14%、2.89%;接下来只有“编辑”和“出版”的词频占比超过1%。关键词词频占比较高,表明这些领域或方向是“出版”类研究的重点,研究成果较多。由于“出版”类研究的理论性、思辨性特色明显,规范研究多于实证研究,目前,结合大数据等方法层面的应用研究相对较少。

表4 “出版”研究的高频关键词

从整体而言,“出版”类研究的主题呈多元化趋势。数字出版、电子书、内容资源管理、自媒体出版、媒介融合、著作权及版权保护等都与大数据有着紧密的联系,伴随着大数据技术和应用的快速发展,大数据对出版业产生的影响将日益凸显,会逐渐形成一些研究热点方向。

2.“编、印、发工作”研究的热点分布及趋势

“编、印、发工作”研究的关键词共现聚类网络如图9所示,被引次数top200论文与被下载次数top200论文的关键词共现聚类网络如图10、图11所示。“编、印、发工作”研究的高频关键词如表5所示。通过分析发现,目前我国“编、印、发工作”类研究的主要方向与“出版”类研究基本一致,仍然集中在科技期刊和学术期刊及数字出版,此类研究侧重编辑方面的研究。表5的高频关键词中,排在前三位的“科技期刊”“学术期刊”“编辑”的词频分别为1 286、688、430。 从“编辑工作”“印刷工作”“发行工作”三个分支来看,“编、印、发工作”研究的核心“编辑工作”,特别是与编辑工作紧密相关的选题策划及创新等是研究热点问题,针对“发行工作”也有所研究,“印刷工作”则几乎没有涉及。此外,高校学报是此类研究中相对独立的热点研究方向之一。

图9 “编、印、发工作”研究的关键词共现聚类网络

图10 “编、印、发工作”研究的被引次数top200论文关键词共现聚类网络

图11 “编、印、发工作”研究的被下载次数top200论文关键词共现聚类网络

表5 “编、印、发工作”研究的高频关键词

3.“大数据”研究的热点分布及趋势

“大数据”研究的关键词共现聚类网络如图12所示,被引次数top200论文与被下载次数top200论文的关键词共现聚类网络如图13、图14所示。“大数据”研究的高频关键词如表6所示。通过分析发现, 目前我国研究“大数据”的几个主要方面是:与大数据相关的互联网经济、智慧城市、电子政务、图书馆知识服务研究;数据挖掘、云计算、学习分析、可视化等大数据技术研究;大数据信任研究;大数据岗位研究;等等。新闻传播领域的学者将大数据与新闻生产有机结合进行研究,使得社交网络、数据新闻等新的传播学领域研究方向迅速发展。在高被引top200论文中,侧重对数据挖掘、数据技术等方法的研究,以及结合用户需求的互联网经济下的服务模式创新等研究;在高下载top200论文中,研究热点在关注大数据技术的同时,也突出了大数据与传播学领域的交叉研究,如大数据背景下的新闻生产、社交网络等。表6的高频关键词中,排在前三位的“大数据”“大数据审计”“大数据岗位”的词频分别为2 502、279、160。其他高频词体现了大数据与政务、图书馆、传播、教育等不同领域和机构的融合研究特色,反映了大数据对各行各业正在产生着巨大的影响。

图12 “大数据”研究的关键词共现聚类网络

图13 “大数据”研究的被引次数top200论文关键词共现聚类网络

图14 “大数据”研究的下载次数top200论文关键词共现聚类网络

表6 “大数据”研究的高频关键词

4.“出版中的大数据”研究的热点分布及其趋势

“出版中的大数据”研究的关键词共现聚类网络如图15所示,被引次数top200论文与被下载次数top200论文的关键词共现聚类网络如图16、图17所示。“出版中的大数据”研究的高频关键词如表7所示。通过分析发现,目前我国研究“出版中的大数据”的几个主要方面是:与大数据相关的出版业融合发展、知识服务、选题策划、转型升级研究;出版社结合大数据进行的按需出版研究;与大数据相关的数字出版、编辑活动研究;互联网与大数据的融合研究;大数据素养研究;等等。在高被引和高下载论文中,侧重研究大数据时代下的传统出版业如何利用大数据、新媒体、物联网等新兴技术进行精准营销、出版发行,以及大数据时代下的出版模式、出版内容、版权保护等热点问题。表7“出版中的大数据”研究的高频关键词中,排在前三位的“大数据”“数字出版”“大数据素养”的词频分别为149、35、24。整体上而言,“出版中的大数据”研究形成了多个分支和热点,如与大数据关系紧密的知识服务、按需出版、精准营销、人工智能等都是近几年和未来研究的重点。

图15 “出版中的大数据”研究的关键词共现聚类网络

图16 “出版中的大数据”研究的被引次数top200论文关键词共现聚类网络

图17 “出版中的大数据”研究的下载次数top200论文关键词共现聚类网络

表7 “出版中的大数据”研究的高频关键词

五、结语

通过对2008—2017年这十年来“出版”“编、印、发工作”“大数据”以及“出版中的大数据”等四类研究的总体研究状况和研究热点进行分析,发现随着大数据的发展,出版领域的研究与大数据的结合日益紧密,运用大数据技术解决出版领域的应用问题,将是未来该领域研究的创新发展方向。

[1]徐子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.

[2]马克· J.H.弗雷茨,柏雯,曹子郁,等.大数据出版[J].出版科学,2017(1):1-5.

[3]王鹏涛.读者学研究重启的必要与可能[J].现代出版,2013(1):11-15.

[4]杨晓新.数据科学视域下的出版学研究方法[J].出版科学,2017(6):46-50.

[5]马费成,胡翠华,陈亮.信息管理学基础[M].武汉:武汉大学出版社,2002:83-90.

猜你喜欢

次数聚类论文
机场航站楼年雷击次数计算
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
一类无界算子的二次数值域和谱
基于K-means聚类的车-地无线通信场强研究
依据“次数”求概率
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登