国外学术出版集团数字化和智能化发展现状及我国对策建议
2019-01-28■向飒
■向 飒
1)郑州大学学报编辑部,河南省郑州市高新区科学大道100号 4500012)郑州大学新闻与传播学院,河南省郑州市高新区科学大道100号 450001
在全球大数据时代,随着云计算、信息技术以及媒介融合的发展,发达国家的学术出版数字化已经越来越成熟, 学术出版正在走向数据化和智能化。未来30年,数据将成为生产资料,计算则是生产力。出版数据包括用户数据、内容数据和交互数据。学术出版数字化和智能化发展的关键从以产品为中心转向与科研用户建立长期关系,即高效参与科学研究的每一个环节,关注现在的学者需要什么、科研热点是什么、同行在做什么、读者要什么、我应该与谁合作等。各大国际学术出版集团以掌握的海量科研论文、科研人员信息为基础,凭借强大的技术创新、资源创新、服务创新、平台创新走在学术出版数字化和智能化发展的前列。
本研究采用文献调研法和案例分析法,对国外学术出版数字化和智能化发展现状进行了梳理。赵晓芳[1]指出越靠近最终用户(或读者)的公司,其数据的活性越高, 终端产品的价值越大, 在数字出版产业链上的发言权就越大。李娟等[2]认为国际学术出版集团都积极拓展数字出版业务,形成了多元化的数字出版业态,并且在增强数字化基础建设及完善数字出版产业链等方面加强战略规划。刘战兵等[3]指出爱思唯尔利用大数据技术和人工智能提供全球专业信息解决方案,集团平均每年投入5 亿英镑用于技术创新。方卿等[4]指出数据仓储技术、文本数据挖掘技术、语义技术、ORCID行业标准等已经成为海外学术出版的技术热点。任翔[5]指出欧美学术传播已经朝着数据化与智能化转变。梁帆[6]指出社交媒体平台已经和国际出版商进行深度合作。2017年5月发布的《STM出版2021技术趋势》报告指出,基于文本分析和数据挖掘的智能服务、编辑流程的创新、基于用户数据的个体化服务是未来科技出版的趋势[7]。总体来看,国外学术出版产业已经进入数据化、智能化发展阶段。近些年,我国学术出版整体形势向好,科技实力正处于从量的积累向质的飞跃转化的关键时期,但与国外学术出版运营状况相比,我国科技期刊的融合出版缺少强有力的技术支撑,媒体融合进展和成效仍显迟缓,知识服务投入和收入较低,知识产品形态和服务形式单一,学术出版和知识服务市场需要做大做强[8]。因此,大力加强我国学术出版的数字化和智能化对于推进国家科技创新体系建设、提升科技主动权和主导权、使我国成为世界主要科学中心和创新高地具有重要战略意义。
1 国外学术出版数字化和智能化发展状况分析
新一代数字技术深度重构期刊形态,学术社交平台、可视化技术、区块链技术等快速渗透,孕育颠覆式力量的众多数字出版平台开始崛起,跨平台、融媒体、多模态版本、数据化和智能化成为学术出版的新方向。越来越多的出版商、学术机构、知识服务平台加快数字化和智能化创新的步伐,数据、平台、技术、服务等因素协同关联,对学术出版产生以下影响:数字出版业务占比加大;关联开放数据出版平台进一步开发;数据资源建设得到加强;学术出版流程得到优化;数字分析决策工具进一步开发;基于用户导向的知识服务内涵发生变革;学术出版机构和社交媒体深度合作。国外学术出版机构频繁和高科技、智能化公司以及社交媒体展开紧密而卓有成效的合作,例如:汤森·路透公司与文本分析处理公司Linguamatics合作,利用自然语言处理(Natural Language Processing,NLP)技术推出药物研发综合情报平台Cortellis,为药物发现、临床开发、注册信息提交和产品商业化提供精确和可操作的解决方案;施普林格出版集团和数码科技公司Digital Science、智能搜索初创公司Unsilo、化学信息软件公司InfoChem和语义技术开发公司Ontotext等展开合作,不仅为平台核心基础结构功能的开发提供了支持,而且为平台提供了高质量的可靠数据集及能实现数据快速高效录入的语义图形数据集[9]。
2 国外学术出版集团数字化和智能化发展的策略创新
2.1 提升基于用户体验的数字内容出版平台功能
国际出版集团纷纷建立集内容生产、传播、数据检索为一体的大型数字化内容资源平台[10]。为了让用户获得更好的体验,国外学术出版平台积极和社交平台合作,以提升资源访问量。例如,爱思唯尔的ScienceDirect期刊平台特色是支持相关参考工具书链接、图表搜索、多种浏览器批量下载、操作历史记录、快读链接、分类选项利用和个人信息管理等,其每3个月就会更新使用模式和搜索方法。2017年,爱思唯尔收购了数字共享平台——美国加州伯克利的Bepress公司,以扩大学术图书馆的影响力。施普林格的SpringerLink期刊平台的特色是:邮件定制服务、个人收藏夹、在线优先出版、RSS订阅等。通过网络平台推送即将出版的期刊和图书目次、电子样书和样刊,与Google Scholar建立合作关系,向Google等搜索引擎、报纸、科技网站推送相关的新闻。与施普林格合作推送新闻的媒体网站多达100个,包括英国广播公司(British Broadcasting Corporation,BBC)、《经济学人》《纽约时报》以及著名的科学博客[6]。约翰·威利的Interscience平台特色是记录个人文件、获取期刊最新信息;预出版、推送电子邮件、查看引用论文的所有出版物、支持漫游和移动阅读等功能,并和社交媒体Facebook、学术协作网络合作。汤森·路透的ISI Web of Knowledge平台的特色是跨库检索、引文检索、基于内容和引文的跨库交叉浏览、检索结果分析、定题跟踪服务、引文报告和信息管理等,可以定量分析和评估高校的科研产出和影响力。
2.2 加强基于技术创新的多模态数字内容建设
在资源内容建设方面,国外学术出版集团的核心运营战略一直是斥巨资投入科技研发、收购高新技术公司、并购相关同行机构,以获取新的技术资源、扩大数据库内容及提供增值服务。例如,爱思唯尔收购帕加蒙出版社(Pergamon Press)、北荷兰出版社(North-Holland Publishing Co.)、美国学术出版社(Academic Press),其旗下有HPCC Technology、ScienceDirect、Scopus、Map of Science、SciVal、Clinicalkey、Reaxys、MD Consult、Nursing Consult等先进的数据处理技术、数据库和在线解决方案系统。施普林格是全球最大的产品数字化创新者和开放研究领域的执行者,先后收购了博思软件、Business Insider等。2014年上半年,施普林格的数字业务在整个经营利润中占比达到72.1%,达到32.9亿欧元[4]。泰勒-弗朗西斯合并了Falmer、Crane Russak和Hemisphere等出版机构。英国出版科技集团的Advance复合出版系统可以选择电子产品、纸质产品、音视频和数据库等10多个产品形态进行出版。2013年,牛津大学出版社出版包括学术期刊、学术参考文献、学术图书、辞典、高等教育教材、英语语言教育(English Language Teaching,ELT)和中小学教育出版物等40多个在线产品。
2.3 开发基于数据决策分析工具的知识服务
国际大型出版集团的学术出版逐渐由信息出版传播向知识出版和服务转变。从2009年开始,爱思唯尔陆续推出了一系列分析工具来更好地服务于科研用户,2017年将信息解决方案向有更高附加值的数据决策分析工具转型[11]。如科研管理工具SciVal可以根据机构在科研评估中的表现定位和探索各研究领域的前沿主题并挖掘潜在学者;全球最大的同行评议文摘及引文数据库Scopus能追踪、分析和可视化研究成果;工程问题分析工具Knove可以提供实操建议和有效公式,帮助企业快速解决难题;助力化学研究的Reaxys可以提升化学研究效率;企业研究管理工具Pure可以提升协作水平、简化管理并提升科研影响力;在线工具Expert Lookup可以快速帮助用户识别科学专家,找到符合需求的优先级研究人员。2017年,爱思唯尔收购了美国Plum Analytics,该工具通过收集来自学术圈、平面媒体及社交媒体的替代性评价数据,与Mendeley、Scopus、ScienceDirect等的相关数据结合,对科研影响力进行计量分析。施普林格·自然集团和Altmetric合作推出图书影响力分析工具Bookmetrix,对图书进行实时分析评价,可以看到图书的网络关注和国际学术影响力。Re3data.org数据库开发的Repository Finder,可以提供一种快速方法来检索符合启用FAIR数据项目建议标准的结果。
2.4 变革基于人工智能技术的出版流程
国际学术出版集团通过其建立的大型数据库,将研究人员、出版商和数据存储库连接起来,通过大数据和人工智能技术帮助研究人员快速准确筛选热点研究方向、找到有价值的内容、确定下一步的研究方向,帮助期刊优化同行评审、检索来稿内容并识别数据捏造、实现精准营销。例如,爱思唯尔不仅用自主开发的Scopus搜索到全球一流学者并实现对接,对最重要的信息按主题进行内容分类和组织,从而使用户更快地发现最前沿的学科发展趋势,而且还开发了大量的服务于研究工作流程的产品,如实验室管理产品Hivebench等。泰勒-弗朗西斯集团与丹麦人工智能UNSILO公司合作开发NLP技术,从学术文本中提取主题和概念,根据用户阅读内容进行相关推荐,使其更容易发现新研究,并在相关度、优化搜索、查找同行评审专家方面丰富语义。2018年同行评议平台ScholarOne与人工智能公司UNSILO合作,提高编辑的论文筛选能力,节省同行评议时间。德国新兴出版社Inkitt则通过演算趋势数据判断用户使用模式,根据作家、作品和读者的互动频次来修改作品,形成互动出版模式。
2.5 强化基于开放获取的数据仓储建设
数据仓储的构建在于为科研人员获取和管理数据提供方便,促进数据开放共享,保护数据知识产权。数据仓储不仅是数据存储的仓库,还提供管理和服务。国际上数据仓储已经逐渐受到学术界的重视。2013年12月,欧盟推出开放获取的“欧盟地平线2020”计划;2018年9月,欧盟、欧洲研究委员会推出开放获取Plan S计划,所有欧盟成员国资助的研究项目的科研数据和数字化科研成果必须开放授权、免费获取、自由使用。越来越多的资助机构和出版商要求在适当的存储库中提供研究数据,提升数据共享能力。2018年3月,据全球研究数据存储注册库re3data.org的统计,全球共有2000多个研究型数据仓储库[12]。例如,施普林格相继推出Recommended(为你推荐)、SharedIt(易分享)、SciGraph(科研图谱)关联开放数据平台。开放数据平台SciGraph整合了有关科研资助机构、科研机构、科研立项、拨款额度、相关会议以及成果出版的信息,截至2018年,该知识图谱包含了10亿条学术界关注对象的信息(三元组),为科研共同体提供服务[9]。2016年8月,爱思唯尔收购了学术社交网站Mendeley,上线数据仓储平台Mendeley Data,采用大数据分析技术进行数据出版。2018年,基于云计算技术的数据出版平台Figshare与施普林格·自然、人文社科领域的泰勒-弗朗西斯合作进行数据出版。
3 提升我国学术出版数字化和智能化发展能力的对策
3.1 资源创新:整合优质内容强化数字资源建设
一种内容、多种媒体、复合出版是大数据时代学术出版的要求。大规模、高质量的数据是知识图谱的素材和标引的基础,是学术出版的数据采集、存储、标引、组合和计算的核心要素。学术资源的开发与生产是学术出版的核心竞争力,数据加上智能算法才能实现作者、读者和内容的高效结合。因此,通过XML语义碎片化技术将内容碎片化,对知识数据进行深度标引与文本语义分析,将已有的内容切分成多个知识单元,将海量数据转化为有效的结构型数据,实现知识的提纯、内容的关联以及资源的链接,完成元数据集、模型、图表与网络平台、数据库、社交媒体、移动端等类型数据集成连接,实现对知识内容的碎片化细微识别和精准的知识体系构建,生产出多模态的数字化内容出版物,完成知识数据资产内容的定制与重组、自主出版等[13]。优质学术资源的开发和整合是通过精选数据内容资源并进行结构化、知识化的精加工,打造多种产品形式和服务形态实现的,真正做到跨平台、融媒体、多模态产品的协同生产、同步上线。
3.2 流程创新:采用智能技术优化学术出版流程
大数据、云计算和人工智能将学术出版流程的选题策划环节变得更为高效便捷;编辑出版环节实现编校的自动化和产品的多元化;生产印刷环节实现按需精准印刷;营销发行环节实现读者定位精准化。通过文本分析、语义分析、机器学习、智能搜索、模式识别、数据挖掘技术及智能算法等进行数据采集、数据集分析和数据处理,优化了学术出版的运作流程[13],实现内容的精准抓取、准确推送、细粒度的个性化服务。新的互联网技术协助作者创作内容、提高写作效率;辅助出版商优化同行评审、检索内容、检测重复率、识别数据捏造和提升用户体验。通过互联网技术、信息技术实现内容的内部关联,实现内容智能化和用户需求个性化,实现学术内容和用户需求的精准匹配,开发出针对特定领域的内容产品;借助信息技术实现内容标注自动化、审稿评议机器化,识别抄袭论文,优化审稿决策,提高出版流程内部工作效率。因此,通过对数据信息快速的获取、存储、管理,以及对用户数据信息的深度挖掘,基于算法创新的学术出版将科研数据和知识服务深度融合,重构学术出版的多元化内容模态,实现学术出版各环节全方位的变革,使得学术出版系统更加高效化、数字化和智能化。
3.3 服务创新:深化具有高附加值问题解决方案的知识服务
越来越多的科研用户希望智能化地利用知识资源和服务,使知识服务参与到其科研全过程。未来的学术出版就必须要跳出传统的出版藩篱,形成以数据为生产要素的模式,不仅要为科研用户提供社交化和个性化的阅读服务,而且要提供高附加值的问题解决方案。它通过信息技术和知识经济来引导用户的需求,利用决策分析工具和应用程序将内容出版、数据出版以及信息服务变成一种知识出版的服务模式,提供整体解决方案,提升知识产品的服务功能,使得学术出版真正转变成为用户提供知识服务的解决方案。可以在科研立项、文献检索、科研和教学指导、论文撰写与编辑、学术评价、科研成果分享、影响力评估和学术交流等环节进行定制化、个性化服务。知识服务的发展方向是根据客户的深层次需求,对目标客户的个案进行分析并提供有价值的解决方案,以帮助其决策并完成工作的服务。因此,学术出版的知识服务环节是通过大数据技术的资源集成、资源拓展和信息关联,推进学术出版资源的开发及整合,准确打造多种产品形式和知识服务形态,实现智能感知、智能分析和智能体验的知识服务。
3.4 机制创新:建立基于开放获取科研成果的长期制度
开放数据已经成为出版业和知识产业的共识,数字传播和开放科学体系已经形成规模。开放获取政策将会改变商业出版模式和产业业态。在2018年12月的柏林开放获取会议上,中国国家自然科学基金委、国家科技图书文献中心、中国科学院文献情报中心都支持OA2020倡议和开放获取欧盟Plan S计划提出的“将公共资金资助项目学术论文尽快转变为立即开放获取”的要求,支持以灵活包容的多种措施实现这个目标。这一表态表明中国学术出版的发展方向:顺应全球变革趋势,创新学术传播体系,建立更加高效合理和智能化的开放获取科研成果的长期制度。因此,我国学术出版业应尽快通过数据共享建立经济高效的开放出版支持机制,支持从科研经费中支付开放出版论文处理费(Article-Processing Charge,APC),建立公共资金资助的科研项目及成果的开放存缴制度[14],构建开放存缴的机构知识库,支持利用大数据技术来评价开放科研成果,解决科研评价过分依赖国际出版商和高影响因子期刊,增强我国学术出版机构在全球学术交流和学术评价中的国际学术话语权。
4 结束语
我国学术出版产业由数字化向数据化和智能化发展,需要利用大数据、人工智能和云技术等来实现。将研究者和科研过程、科研数据真正融合,通过整合开发数字资源,创新内容生产、编辑、印刷、营销等出版流程,深化知识服务,支持开放获取等措施,将产品或服务的形态从单一的纸质产品衍变为电子出版物、数据库、知识库,最终再到知识服务,推动学术出版的生产流程、内容建设、知识服务以及开放共享机制等环节的变革。因此,我国学术出版数字化和智能化发展的核心要素是实现资源、流程、服务和机制创新,其关键是通过整合优质内容强化数字资源建设;采用智能技术优化学术出版流程;深化具有高附加值问题解决方案的知识服务;建立基于开放获取科研成果的长期制度。