APP下载

中文科技期刊语义出版态势分析

2019-03-20谢荣秀

传播与版权 2019年12期
关键词:科技期刊语义期刊

闻 丽,张 扬,谢荣秀,吴 彬

[1.中南林业科技大学期刊社,湖南 长沙 410004;2.国家新闻出版署出版融合发展(武汉)重点实验室北京中心,北京 100088]

语义出版是数字出版领域发展趋势之一。英国皇家化学协会的“RSC项目展望”被认为是语义Web技术在科学出版中的第一个主要应用[1]。2009年,DavidShotton等首次较为系统地提出了语义出版的概念[1],引起了学术界和出版界的广泛关注。通过语义标签的标识,信息间建立起有机的联系,信息的挖掘和查询更加方便。当前的主流研究中,语义出版物可以包括任何增强已发表期刊文章的意义、便利其自动发现、使其能够链接到语义相关的文章,以可操作的形式访问文章中的数据或促进文章之间的数据集成的任何内容。

目前,国外的相关研究开展得如火如荼,语义技术已逐步融入出版行业的发展中,且有不少成功应用的范例。如英国广播公司(BBC)将动态语义出版成功应用于体育报道、新闻等多个领域,为动态数字出版的发展提供了很好的借鉴和启示[2]。近年来,国内的相关研究取得了一定成果,研究方向主要包括语义出版元数据及本体等标准设计、语义出版数据集开发及发布、语义出版物相关技术和工具开发、语义出版物的应用等[3]。如王晓光等梳理了语义出版的多种表现形式,分析其功能特征,进而提出语义出版的DBIU层次模型[4];沈锡宾等总结了中华医学会杂志社中华医学会期刊文档标签集(CMAJATS)3年数字出版的实践经验[5]。但是,这些研究大多数是从语义出版技术实现角度进行探讨分析,宏观方面中文科技期刊在语义出版中所面临的境地及其发展优势与劣势鲜有报道。而现阶段中文科技期刊出版单位对于语义出版的认知度和采纳度普遍不高,为中文科技期刊语义出版的发展带来了一定的阻力。

笔者从编辑的视角出发,分析中文科技期刊发展语义出版所面临的机遇和威胁,及语义技术与中文科技期刊融合的优势和劣势,提出进一步的可行性发展路径,旨在为中文科技期刊发展语义出版厘清方向,促进其发展。

一、语义技术应用于中文科技期刊的发展机遇

(一)国家政策层面

近年来,国家先后出台了一些政策,积极支持数字出版产业的发展,推进出版融合。语义出版作为数字出版的高级形态,也越来越受到关注。

2011年,《新闻出版业“十二五”时期发展规划》发布,在推动“十二五”时期新闻出版业发展的主要措施中将语义分析技术作为重点支持研发的内容之一。2012年,新闻出版总署发布了《关于加快我国数字出版产业发展的若干意见》,积极鼓励研发数字出版核心技术,鼓励出版方式多样化,推动出版传播技术升级换代。2018年11月,中央审议通过《关于深化改革培育世界一流科技期刊的意见》,并于2019年8月印发,其中将抓住数字化、智能化促进期刊变革的机遇,“建设科技期刊论文大数据中心”作为一项重要任务。国家也设立了专项资金资助新闻出版业的数字化转型升级,如在《关于开展2014年度文化产业发展专项资金新闻出版业数字化转型升级项目申报工作的说明》中指出:“支持部分专业出版企业按服务领域划分、联合开展专业数字内容资源知识服务模式探索。包括开展知识挖掘、语义分析等知识服务领域关键技术的应用。”2017年9月,国家新闻出版广电总局发布的《新闻出版广播影视“十三五”发展规划》提出,“推动设立国家出版融合发展投资引导资金,带动社会资本积极参加传统出版与新兴出版融合发展”,并设立出版融合发展课题研究专项资金和出版融合发展项目引导资金。这些政策为我国科技期刊的语义出版提供了强有力的支持,为语义出版指明了发展方向和实施路径。

“十二五”期间,各地推动文化产业转型升级,建立了很多数字出版基地或园区,其中国家级数字出版基地14个,极大地提高了数字出版产业的发展速度[6]。2016年,国家新闻出版广电总局出台《关于加快新闻出版业实验室建设的指导意见》,确定了20家出版融合发展重点实验室[7]。数字出版基地与出版融合发展实验室的建立为解决科技与出版的深度融合的瓶颈问题提供了有力支撑,为语义出版提供了广大的发展空间。

(二)技术层面

随着相关技术的迅速发展,语义出版的内容越来越丰富,为“无缝交流”创造了可能。一些基于语义出版数据集的应用系统被逐步开发出来,如SemanticLancet(2014年爱思唯尔出版集团发布)、SciGraph(2017年由Springer-Nature集团发布)、SciKG(2017年清华大学发布)等。数据加工处理方法和工具的普及使得出版物的语义发布越来越简单化,发布技术门槛的降低为中文科技期刊的语义出版普及带来了可能[8]。在数据的结构化标准方面,中华医学会杂志社参考国外期刊的经验,制定出适合中文科技期刊的中华医学会期刊论文标签集(CMAJATS)[4]。

目前,国际上有的期刊已经做到了多种类型的数据融合,如提供文章唯一标志符DOI和超链接;文本术语的语义标记,与相关第三方信息资源的链接;交互式数字;可重新排序的参考列表;包含研究摘要、标签云和引文分析的文件摘要;包含了表和图中数据的可下载的电子表格[1]。从Aries系统公司的集成元文献智能的可支持论文出版决策的系统,到Elsevier在期刊信息采集与搜索领域的全部期刊及图书资源支持文本与数据挖掘,再到Taylor&Francis与UNSILO合作致力于期刊内容的语义发布,语义技术在整个出版流程中的融入,对于我国中文科技期刊的语义出版均极具参考价值[9]。

国内的一些科技公司也在语义技术的应用方面进行积极探索,如科大讯飞、百度等。目前,讯飞的核心语音业务正在向语音识别、语义识别、自然语言处理方向演进。2014年起,科大讯飞基于深度学习算法,启动了针对人工智能的重大攻关项目“讯飞超脑计划”[10]。语义技术在其他领域的成功应用对于中文科技期刊的语义出版具有一定的借鉴意义。

(三)社会需求层面

1.响应净化学术环境的需求。近年来,随着网络数据库资源的日益丰富,科技信息的获取越来越便利,而科技期刊版权保护力度普遍较弱[9],科技论文学术不端现象日益严重。数字出版的迅速发展使得科技期刊的影响面越来越广,学术不端事件的曝光率增大,导致近来国际上频现学术不端事件,学术道德也受到了前所未有的重视。中文科技期刊作为我国科技信息交流的重要平台,在学术环境的维护中有着举足轻重的地位。语义技术则为科技期刊对于学术不端的防范提供了一道新屏障。利用语义技术强大的信息挖掘功能,开发出一套高精度的论文分析系统,对论文进行全文检索和整体分析,防止抄袭及低水平重复,对于科技期刊的发展和学术环境的净化显得尤为重要。

2.摆脱海量数字信息的困扰。随着科技的发展,我国科技期刊每年发文量不断攀升,其中所蕴含的信息量也呈几何量级地增长,完全靠人力来完成这些信息的分析处理越来越不现实,与此同时科技期刊的审稿工作量也大幅增加。科研人员需要从浩渺的文献中寻找对自己有用的信息,面临查询不全面不准确、成本高、耗时等问题。在传统的学术信息服务平台上,其搜索引擎无论是基于网站分类技术还是基于全文检索技术,用户在查找在库文献的相关信息时,由于所提供的表达模糊、信息孤立、机械化的关键字匹配、无法进行知识整合等原因,均需对获得的一级信息进行二次过滤,难以避免误查漏查情况的出现。而科技期刊编辑人员所面临的问题是:在出版前对低水平重复的论文进行有效剔除,减轻审稿工作压力,并确保不遗漏具有创新性的科研成果;在出版后对科技论文所含信息进行有效管理,实现信息的高效利用。基于语义技术的科技期刊学术信息平台可提供一种智能化的检索方式,实现面向编审人员和科研人员的从稿件编审到发布到应用的轻松分析处理和充分利用,实现战略性阅读,并精准获取“宏知识”。科技期刊转型为信息解决方案的提供方,旨在为用户提供更好的信息和决策方案[9]。

3.破除经济效益低下的困境。中文科技期刊作为一种特殊的商品,在任何情况下都必须把社会效益放在首位。以社会效益为主的传统经营方式随着办刊环境的变化以及办刊经费的增加,一些期刊入不敷出,甚至停刊。实现社会效益和经济效益的双赢,是维持中文科技期刊的生命力、促进其可持续发展的最优路径。语义出版是具有弹性扩展、动态分配和资源共享等特点的数字内容出版,它催生了大量新型出版业信息服务,促进了出版格局的整体变革。语义技术在科技期刊出版流程中的介入与升级,使得科技信息传播的专项服务、深度服务、私人订制成为可能。语义化的中文科技期刊信息服务平台可以为用户提供智能化、个性化的科技信息服务,创新了其在信息消费市场的服务方式,通过增值服务创造新的商业机会,扩大了盈利空间。如,全球最大的科学与医药信息出版商爱思唯尔,通过整合科技期刊资源和对内容产品价值的重新挖掘,其数字内容资源的收入可达每年30亿美元[11]。

二、语义技术应用于中文科技期刊的内部优势

就多数中文科技期刊来说,目前已基本实现了XML等结构化处理,这有利于进行文本的语义标注和互动访问,便于机器理解和获取其中的数据单元,这是应用语义技术的根本和前提,为语义技术的应用创造了条件。同时,语义出版也为中文科技期刊带来了更为优良的发展格局。

(一)实现中文科技期刊信息平台的智能化

在中文科技期刊信息平台建设中,运用语义技术将出版内容进行智能化加工整合,能够让信息的动态整合和动态选择成为可能,科技信息平台为用户输出的产品更加智能化和个性化。利用语义技术可以将出版对象从论文延伸到原始数据,将知识组织单位由“文献”细化到“知识单元”。由于出版内容更加结构化,信息粒度更小,从而更易被计算机理解和自动集成,有利于信息的再利用和按需重组,有利于出版内容的二次深度开发,实现大规模个性化信息服务。语义技术的应用可以创新科技期刊的出版形式,实现一次投入多次产出,一种产品多样化服务,使得科技信息平台更具友好性,实现信息的结构化、关联化、混合化、可操作化、可视化,先于用户完成内容的理解、分析、综述、聚合等活动,使得用户能够以尽可能少的搜索与整理工作,获得尽可能多的可用信息。更重要的是,通过信息的智能化加工整合,不仅丰富了传统中文科技期刊的表现形式,增强了其内容的可操作性和交互性,深入挖掘了其内容的价值,还增强了不同期刊间、不同文献间的关联度,实现出版内容与行业数据跨平台的互通共享。

(二)提升中文科技期刊的受众黏性

将语义技术融入中文科技期刊的数字出版中,将为用户带来全新的知识服务体验。可以利用语义技术识别和跟踪用户的兴趣,分析用户的行为,自动建立用户偏好库。通过自动跟踪偏好库,用户即可在浩渺的文献中方便快捷地得到自己所需的数据和信息。通过链接至语义相关的文献,并提供获取文章内数据的可行性途径,实现动态地获取和组织内容,并主动推送精准的个性化服务。另外,语义技术为中文科技期刊的富媒体出版提供了新路径,用户面对的不再仅仅是文字和图片,还有更丰富和多感官的互动性内容展现。这种专业化、定制化、交互性、高增值性知识服务在为用户提供较大便利的同时,还增加了期刊的受众黏性,提升了其在信息消费市场的竞争力。

(三)保障中文科技期刊质量

运用语义技术构建知识版权保护壁垒,确保中文科技期刊的绿色发展。目前,在论文的审稿阶段,中文科技期刊通过论文重复率的检测,实现对高重复性文章的初步筛选,防范学术不端行为的出现,保证期刊的质量。但是一些作者通过各种途径进行查重后,对文章的语言叙述稍加调整,即可通过审核,如变换同义词、长短句互换、改变描述方式、打乱句子顺序等。随着语义技术在查重软件中的应用及逐步成熟,检测的精确度被提高,真正实现从技术手段方面防范学术不端、减少低水平重复,建立中文科技期刊知识版权的保护壁垒。其原理是基于词频统计的方法,此方法引自向量空间的检索模型,和信息检索技术相关,是根据指定规则,将单词频度转化为空间特征向量,最后采取度量向量之间的距离来计算相似度达到查重的目的[12]。2008年10月发布的“CNKI期刊学术不端文献检测系统”目前已实现了多库及互联网资源的联合比对,其检测原理包含了“语义技术”。

三、语义技术应用于中文科技期刊的内部劣势

(一)中文科技期刊语义出版意识欠缺

网络化和市场化的浪潮为中文科技期刊的发展带来了机遇与挑战,大多数中文科技期刊都在积极地进行新媒体融合的探索和应用,数字化出版开始渗透到期刊出版的方方面面。但是,由于受发展思路、体制机制、技术手段、人才资源、经营管理模式等因素制约,很多期刊在数字化进程中处于相对被动的地位,对于语义出版的研究与应用方面更是表现为动力不足。首先是发展思路方面。目前,中文科技期刊在新媒体融合方面的应用多囿于在线投审稿、开放获取、DOI标注、搭建集群数字出版平台、开通微信公众号等[13],也有部分中文科技期刊尝试采用视频动画等探索论文可视化发表[14],语义出版还是一个相对较新的领域,未能进入大多数中文科技期刊的发展视野。其次,由于盈利模式尚不成熟,多数中文科技期刊并未从数字出版中获得更多的经济利益,而语义技术的应用尚在逐步发展中,由于出版理念的落后,未远瞻到语义出版的优势,鲜有进行语义出版的尝试。

(二)中文科技期刊语义出版技术人才匮乏

由于中文科技期刊出版与发行相关机构人员的复杂性及相应的研究发展起步较晚,编辑队伍建议滞后,编辑部管理水平落后等原因,该行业缺乏一支稳定的、高质量的、专业的计算机软件方面研究的队伍,特别是熟悉编辑业务、了解语义技术、富有相关系统运作经验的专业人才十分匮乏。但要进行后期软件使用的不断调适,实现相关软件系统与出版流程的真正契合,少不了科技期刊管理与编校人员的智力支持。如,在中文科技期刊的语义发布过程中,需要有专业的人员进行内容碎片化处理、语义标注、语义关联等,这些工作需要人员不仅懂专业,还要熟悉语义技术处理方法,对碎片化的资源进行再处理。

四、语义技术应用于中文科技期刊的外部威胁

(一)政府引导与资助有限

一方面,现有政策多为针对数字出版的宏观指导,针对语义出版的,能够解决具体问题政策相对较少[6];另一方面,语义技术与科技期刊出版的嵌合需要投入较高的成本,然而相关研究资助来源较少。目前,我国科技期刊的发展多依赖政府的投入,支持资金渠道单一,虽然有专项扶持等政策,也是僧多粥少。在国家和地方的基金项目申报中,新闻学和传播学基本不在优先资助行列,给研究项目申请资助增加了一定难度。

(二)专业化期刊集群平台建设缓慢

本体及知识结构关联是以学科为基础,因此一定规模的中文科技期刊专业化集群平台是语义出版实施的基础条件。另外,研发软件系统的先期投入、后期维护和嵌合会增加办刊的成本。而专业化期刊集群既能满足本体库构建及语义检索的要求,又可降低单刊语义出版的成本。由于较多中文科技期刊的主管部门分属各个高校、科研院所、政府部门或学会,以及体制原因,改革动力不足,思维钝化,惯于单兵作战,较难建立起集群。目前,中文科技期刊专业化集群仍处于初始阶段,仅出现少量期刊集群,这些集群中期刊数量分布不一,而期刊数量最少的肿瘤科学网仅有3种期刊,普遍无法涵盖学科领域内的所有优势刊物。

(三)存在市场推广阻力

语义技术与出版的融合,可以促进中文科技期刊的发展,所能带来的社会效益和经济效益是毋庸置疑的,同时也是一把双刃剑。鉴于语义技术对于论文相似性检测的严苛性,其对于中文科技期刊稿源的冲击是必然的,甚至会对一些刊物带来毁灭性的影响;另外由于资金等方面的限制,其应用很可能仅限于各大中文科技期刊数据库或少数中文科技期刊出版机构,因此其市场推广具有一定的难度。

五、语义技术应用于中文科技期刊的发展路径

(一)拓展投融资渠道,建立刊企合作研发与发展模式

语义技术相关软件系统的开发和应用,离不开政府的支持和引导。考虑采取“政府参与、刊企合作、产业推动”的发展模式,边研发边试点,由易到难逐步有序推进中文科技期刊语义出版的发展。为了促进中文科技期刊语义出版的发展,要以政府为主导,做好可持续的顶层设计和系统规划。通过设立专项资金及政策和社会资源适当倾斜,加强技术研发平台建设,为该项技术的研发提供信息和技术支持,鼓励和支持其推广应用。根据我国中文科技期刊的网络发行现状,考虑建立以中文科技期刊出版与发行相关机构为主体的技术研发体系,充分发挥政府和产学研机构的协同作用,通过利益关联,鼓励各大网络科技文献信息服务商等科技企业积极参与,切实从社会需要出发,共同进行技术分析和项目研究。积极争取国家及地方各级财政支持有条件的刊社先行发展,对已开展语义出版尝试的刊社进行目标评估与前期扶持,推动设立扶持科技期刊语义出版的专项资金,制定税收等各项优惠政策,吸引社会资金参与中文科技期刊语义出版的发展。

(二)支持中文科技期刊专业化集群,建立优胜劣汰的退出机制

一方面,充分发挥已建期刊集群的示范引领作用,从政府层面采取强有力的措施有效整合社会资源,打破传统出版单位的界限,加强出版单位间的沟通与合作,依托行业协会、高校和科研机构建立专业化期刊集群,实现信息与技术共享,互利共赢,这是实现语义出版的有效路径。另一方面,应建立一套中文科技期刊的准入退出机制,实行科技期刊动态监管,通过优胜劣汰,实现资源的优化配置,为普及语义出版创造条件。优胜劣汰是市场竞争的必然结果,中文科技期刊应当顺应出版业的发展趋势,适时转变思路,掌握并应用新技术,调整出版服务模式,积极应对科技的发展。不进则“退”的竞争压力会促进中文科技期刊的主动变革,加快中文科技期刊的规范化和数字化发展。

(三)加快相关技术人才培养,建立战略性人才管理机制

要实现语义技术融入科技期刊出版流程的方方面面,不仅要具备友好的软件系统,还需要借助多方的人才优势。传统出版单位要重视涉及语义出版的内容生产、研发、资本运作和经营管理等方面各类新型人才的培养,在开展专业技术人才继续教育培训时,考虑适当加入语义出版方面内容的介绍,加快专业技术人才知识更新。随着相关技术的逐步成熟和完善,有条件的单位可考虑引进相关专业技术人才,已形成集群的科技期刊则可采取远程的专业智力资源共享。另外,应建立有效的评价和激励机制,鼓励专业技术人员树立专业自信,积极开展语义出版方面的研究。

中文科技期刊作为我国科技信息传播和交流的重要平台,承载着促进科技发展等功能,故步自封既不利于科技信息的快速传播,也不利于期刊自身的健康发展。语义出版为中文科技期刊走向可持续发展提供了契机。抓住机遇,积极探索,创新中国特色发展模式,是提升中文科技期刊国际影响力的可行之路。

猜你喜欢

科技期刊语义期刊
科技期刊的分类
期刊更名启事
期刊简介
科技期刊的分类
语言与语义
科技期刊的分类
期刊问答
科技期刊的分类
“社会”一词的语义流动与新陈代谢
“上”与“下”语义的不对称性及其认知阐释