数字出版新技术热点追踪研究
2022-05-27王雨童刘玉琴
王雨童, 刘玉琴
(北京印刷学院新闻出版学院,北京 102600)
随着信息技术的飞速发展,数字出版新技术不断涌现,数字出版产品层出不穷,传统出版与新兴出版之间的融合程度不断加深。 实施数字化战略、实现数字化转型成为出版融合的发展趋势。 2020年11 月21 日,国家主席习近平在二十国集团领导人第十五次峰会第一阶段会议中强调,要主动应变、化危为机,以科技创新和数字化变革催生新的发展动能。[1]2020 年12 月21 日第十届中国数字出版博览会将会议主题设定为“创新引领消费,融合赋能变革”。 数字技术与产业深度融合是融合发展的大趋势。
一、数字出版技术文献回顾
自20 世纪以来,数字技术逐渐贯穿出版的全流程,从选题策划、内容生产、内容审核、内容管理、内容分发到内容营销。 选题策划从研讨式发展为智能分析式选题策划。 武菲菲[2]指出利用大数据抓取和智能分析技术捕捉热点话题辅助出版选题。
内容生产从人机交互逐渐发展为机器写作、视频生成、图像生成、AI 虚拟、智能语音和机器翻译等。 杨鸿瑞等[3]指出应用自然语言处理对文本进行语义分析和快速摘要,实现自动编写和辅助编写。
内容审核从文本自动校对逐渐发展为智能审校、图像审核、视频内容审核等。 刘长明等[4]提出利用机器学习、大数据技术辅助智能审校,识别错词、病句、专有名词、量和单位、数字、连词符等内容,并对内容及用法进行校对。
内容管理从简单文本检索发展为知识图谱、知识库构建、跨媒体检索等。 苏静[5]提出面向集成揭示和智能推理的语义出版形态,依据领域知识库,提供某一主题的知识体系,自动解答用户知识需求。
内容分发的智能问答、智能推荐与内容营销的广告智能分发、场景识别等也都是技术驱动的成果。 柳益君等[6]提出应用统计分析、协同过滤、关键字提取的个性化智能推荐方案,发现用户个性化显性兴趣,利用机器学习挖掘用户个性化需求、识别需求特征、分析需求趋势。
为高效快速达成版权交易,张新新[7]提出在智能营销领域,可运用区块链技术将印前定稿的私链内部版权数据与外部版权联盟链进行融合,实现数据互通互融,达成跨链合作。
二、数据来源与研究方法
(一)数据来源1.数据获取
本文以中国知网(CNKI)收录的北大核心期刊论文数据作为数据源,采用AB=(出版or 选题策划or 内容生产or 内容服务or 传播推送or 阅读体验or 编辑or 排版or 审校or 校对) and 技术以及not (AB=出版社*技术)进行检索,时间跨度为2001 年1 月1 日—2020 年11 月19 日。 同时限定学科为出版、计算机软件及计算机应用、新闻与传媒和图书情报与数字图书馆,共获得论文6202 条。
2.数据清洗
对论文数据进行清洗:通过阅读论文题目及摘要人工筛选出符合数字出版技术这一主题论文2058 条;对机构进行归一化处理,避免相同机构名产生歧义,导致数据分析结果不准确。
(二)研究方法
1.分析工具
本文应用文献计量学工具 ITGInsight 进行文献数据分析,采用文本挖掘和信息可视化方法,从时间、机构、期刊、主题词、关键词角度,挖掘数字出版技术的发展特征与发展趋势。
2.文献计量分析
文献计量分析是分析某一学科、领域发展趋势的重要分析方法,作为一种定量分析方法,以文献量、关键词词频等作为研究对象,采用数学与统计学方法来描述、评价和预测数字出版技术现状与发展趋势。[8]
3.演化分析
演化分析有助于直观了解领域主题的演变、发展趋势,是主题演化分析中常用的方法。[9]本文运用ITGInsight 进行数字出版技术主题演化分析,以主题词的演化揭示数字出版技术的主题变化情况。
4.聚类分析
聚类分析能够获得研究数据的分布状况,观察数据特征。 本文对数字出版技术关键词按照年份进行聚类分析,挖掘研究重点、分析研究趋势。
三、数字出版技术文献计量分析
(一)发文趋势分析
数字出版技术历年论文数量及其增长率如图1 所示,总体呈现递增趋势,2003 年、2006 年数量增长显著。 分析原因,2003 年国家推行电子政务总体要求,积极推进图书管理的电子政务、加快报刊管理数据库建设。 其次这一时期期刊集团化发展,许多出版单位将期刊作为新的经济增长点,各种社会资金大量向出版行业渗透。[10]2006 年是数字出版产业飞速发展,出现重大转折的年度。 《国家“十一五”时期文化发展规划纲要》中明确提出:推动产业结构调整和升级,加快从主要依赖传统纸介质出版物向多种介质形态出版物共存的现代出版产业转变,积极发展以数字化生产、网络化传播为主要特征的数字内容产业。[11]中国新闻出版研究院成立了数字出版研究室和数字出版研究中心,数字出版产业规模扩大,技术提供商联合出版单位打造新兴产业链。
图1 2001-2020 年数字出版技术论文数量及其增长率趋势图
(二)发文机构分析
数字出版技术发文机构分布如图2 所示,武汉大学致力于建设国家创新体系,其论文数量排序第一,展现出较为优秀的科研实力。 论文数量排名前10 的机构武汉大学、中国科学院、清华大学、南京大学、中国传媒大学、北京师范大学、北京印刷学院、北京大学、中国人民大学、华中科技大学,总计发文数量429 篇,表现出较高的科研实力与学科优势,同时也显示出发文机构之间研究实力的不均衡性。 从历史发展来看,北京大学、清华大学、中国科学院数字出版技术研究起步较早;2001-2012 年,除中国科学院外,数字出版技术主题论文数量在各机构间分布较为均匀;2013 年以后北京师范大学、南京大学、清华大学、武汉大学、中国传媒大学、中国科学院发文数量愈加显著,科研实力提升较为迅速。
图2 2001-2020 年数字出版技术论文机构分布图
(三)发文期刊分析
数字出版技术期刊分布如图3 所示,2001-2020 年刊发数字出版技术相关论文的期刊数量为256 篇,发文数量超过10 篇的期刊总计29种。 论文数量排名前10 的期刊分别为《出版广角》《科技与出版》《出版发行研究》《中国科技期刊研究》《中国出版》《编辑之友》《编辑学报》《青年记者》《中国编辑》《传媒》,总计发文数量1181 篇,这10 种期刊在数字出版技术领域影响较大,是传递中国出版良好形象,记录中国出版创新发展的文化阵地。 从历史发展来看,2001-2011 年刊发数字出版技术研究的期刊数量较少;2012-2020 年《编辑之友》《出版发行研究》《出版广角》《科技与出版》《青年记者》《中国编辑》《中国出版》《中国科技期刊研究》刊发论文数量明显增加,这些期刊有较强的影响力,实现了学术性与权威性的统一;各期刊刊发论文集中性较为明显,马太效应显著。
图3 2001-2020 年数字出版技术论文期刊分布图
四、数字出版技术主题演化分析
2001-2020 年数字出版技术主题演化如图4所示,其中节点大小与论文数量成正比。 论文数量越多,表明该主题研究热度越大。 从图中可以看出:2001-2008 年数字出版技术主要侧重于电子出版、多媒体、计算机、数据库等;2009-2015 年主要侧重于电子书、数字化、互联网等;2016-2020 年,互联网和数字化仍然受到大部分关注,但人工智能、虚拟现实成为此阶段的研究重点。 由此可将数字出版技术的发展过程划分为2001-2008 年、2009-2015 年、2016-2020 年三个阶段。
图4 2001-2020 年数字出版技术主题词演化图
2001-2008 年数字出版技术主题如图5 所示,计算机、信息化、数字化和数据库是最受关注的话题。 分析原因,“十一五”期间国家提出发展以数字化内容、数字化生产和网络化传播为主要特征的新兴文化产业, 扩大数字出版产业群体。[12]数字出版成为我国出版业发展方向,数字化转型成为传统出版业发展趋势。 2008 年,原新闻出版总署开展四大数字出版工程:国家知识资源数据库工程、国家数字复合出版系统工程、数字版权保护技术研发工程和中华字库工程,这都是推动数字出版技术发展的基石。[13]从这期间的研究主题与技术发展来看,此阶段为数字出版技术的初步探索阶段,为后续出版研究带来无限可能。
图5 2001-2008 年数字出版技术主题趋势图
2009-2015 年数字出版技术主题如图6 所示,数字化和互联网主题在2013 年加速增长。 分析原因,2009 年第三代移动通信(3G)牌照发放,2013年第四代移动通信(4G)牌照发放,通信技术的升级换代是数字出版产业发展的推动力,[14]加速了出版产业的发展,推动了产品的创新。 此阶段为数字出版技术研究的过渡蓄力期。
图6 2009-2015 年数字出版技术主题趋势图
2016-2020 年数字出版技术主题如图7 所示,“十三五”时期数字出版技术应用开创了“AI+出版”“5G+出版”“区块链+出版”等业务模式,推动数字出版技术发展迈向新阶段。 2016-2020 年间,排序前三的主题分别为人工智能、互联网和数字化。 2017 年被称为人工智能应用元年,中国新闻出版研究院发布的《2016-2017 中国数字出版产业年度报告》指出,新闻出版业正加速迎来人工智能时代,人工智能技术重塑出版流程, 将让出版流程实现智能化。[15]2017 年虚拟现实逐渐减少,主要因VR 图书受到技术和图书种类的限制,出版社受制于技术厂商。[16]
图7 2016-2020 年数字出版技术主题趋势图
五、数字出版技术关键词聚类分析
依据演化分析所划定的数字出版技术主题发展的三个阶段,分别进行关键词聚类分析。
(一)2001-2008 年关键词聚类分析
2001-2008 年关键词聚类如图8 所示,分为8大类团,2001 年关键词为多媒体、电子出版物、数字版权、语言模型等;2002 年为协同图形编辑系统等;2003 年为全文检索系统、语义共现矩阵、古籍数字化、人机交互、电子出版、语义相邻矩阵和中文文本自动校对等;2004 年为文本水印、虚拟现实、数字水印、eBook、多媒体数据库、版权保护和协同过滤等;2005 年为电子期刊、手机报纸、协同编辑和HTML 等;2006 年为可变数据出版、个性化出版、可变信息出版、电子纸、电子书、数据库出版、数据抽取、移动出版、可定制化出版等;2007 年为一维条码、自然语言理解、二维码技术及数字版权保护技术等;2008 年为信息技术、非线性编辑系统、多媒体技术和自主学习平台等。
图8 2001-2008 年关键词共现聚类图
整体来看,2001-2008 年高频关键词为电子出版、电子出版物、版权保护、语义共现矩阵、中文文本自动校对、人机交互、用户识别技术、XML技术、eBook、手机报纸、电子期刊、按需出版、二维码技术、中文信息处理、数据库和内容管理系统。 相关技术的应用给传统出版带来了划时代的意义,数据赋能传统出版,使得传统出版流程、传统出版媒介、传统出版内容管理实现数字化升级与转型。
(二)2009-2015 年关键词聚类分析
2009-2015 年关键词聚类如图9 所示,分为7大类团,2009 年关键词为手机报、知识检索、数字出版技术、可视化、语义查询扩展和非线性编辑系统等;2010 年为云计算、图像编辑、语义匹配、3G技术和内容分发网络等;2011 年为数字化出版、富文本编辑、电子阅读器、水印嵌入和水印检测等;2012 年为按需出版、二维码、全媒体、开放存取、数字技术、XML 技术、三维场景和数字复合出版等;2013 年为数字出版平台、电子书、电子阅读、手机出版、数字出版、期刊数字化、网络自出版等;2014年为自然语言处理、词汇提取、数据库、云出版、增强现实技术、大数据技术和语义标注等;2015 年为数据挖掘、媒体融合、版权保护、语义出版和全媒体出版等。
图9 2009-2015 年关键词共现聚类图
整体来看,2009-2015 年高频关键词为数字出版、三维场景、可视化、云计算、数字化出版、电子阅读、电子书、语义出版、手机出版、文献信息检索、按需出版、XML 技术、版权保护、全媒体、数据库、媒介融合、大数据技术、数据分析、自然语言处理、词汇提取、数字出版平台、媒体融合和数据挖掘。 通信技术的发展将出版带向了互联网时代,大数据改变了出版业信息收集、存储和传播的方式,这些技术的出现重构了传统出版行业,为传统出版与数字出版的融合发展奠定了坚实的技术基础。
(三)2016-2020 年关键词聚类分析
2016-2020 年关键词聚类如图10 所示,分为5大类团,2016 年关键词为数字出版、媒介融合、云计算和开放存取等;2017 年为版权保护、虚拟现实技术、可视化、开放存取、增强现实、数据分析、数据挖掘和语义出版等;2018 年为交互技术、二维码、知识图谱、智能化服务平台、机器学习和智能媒体等;2019 年为5G 技术、内容生产、媒体融合、智能合约、有声读物和全媒体等;2020 年为区块链技术、生成对抗网络、卷积神经网络、融合出版、智能出版、数字阅读、数字版权和智媒体等。
图10 2016-2020 年关键词共现聚类图
整体来看,2016-2020 年高频关键词包含数字出版、媒体融合、媒介融合、数字阅读、虚拟现实、交互设计、数字化出版、版权保护、区块链技术、数字版权、知识图谱、可视化、开放存取、增强现实、智能合约、数据分析、数据挖掘、二维码、AR 技术、VR技术、智能化服务平台、交互技术、卷积神经网络、数字出版平台、XML 结构化出版、智媒体、内容出版、智能出版、5G 技术、图像修复、内容生产和融合出版。 出版业已迈向智媒体时代,数字技术与出版产业实现深度融合、多场景融合。 出版业的内容生产流程从单一产品服务创新过渡到全面利用人工智能等技术进行多角度、全链条的改造提升。[17]
基于聚类分析结果,进一步选取2016-2020年数字出版领域5G、知识图谱、人工智能和区块链相关论文进行深入分析,分析结果如表1 所示。 数字出版新技术研究主要分为两大方向:一是新技术对出版领域的影响、变革、融合探索、政策建议;二是新技术在数字出版领域的具体技术应用。 方向一所占比重较大,论文大多出自高校新闻与传播学院、文学院;方向二比重相对较小,论文大多出自高校计算机学院。
表1 论文研究内容分类表
六、结语
21 世纪以来,聚焦中国数字出版技术研究的学者队伍不断壮大,数字出版技术的研究呈持续增长态势。 2001-2008 年研究主题侧重于二维码、按需出版、XML 技术等;2009-2015 年研究主题侧重于可视化、云计算、电子书、语义出版、手机出版、版权保护、自然语言处理、媒体融合等;2016-2020 年研究主题侧重于数字阅读、虚拟现实、区块链技术、知识图谱、开放存取、增强现实、卷积神经网络、智媒体、5G 技术和融合出版等。 我国数字出版技术的研究逐渐多元化,2001-2008 年偏向于以数据赋能出版的数字化;2009-2015 年偏向于以通信技术赋能出版的智能化;2016-2020 年偏向于以技术融入出版全流程的融合化。
本文对数字出版新技术热点进行追踪,有利于客观认识数字出版的发展趋势与技术侧重。 下一步研究中,将进一步拓宽研究广度,聚焦于国际数字出版的研究热点,发现研究差异,填补研究空白。