中文科技期刊出版中的人工智能应用研究
2022-08-02郑雅妮
■陶 晴 郑雅妮
1)西安交通大学期刊中心,陕西省西安市碑林区咸宁西路28号 710049 2)《西安交通大学学报》编辑部,陕西省西安市碑林区咸宁西路28号 710049
随着2012年深度学习网络AlexNet在ImageNet大赛图像分类任务中以超出亚军10多个百分点的成绩获得冠军,越来越多的研究转向深度学习,人工智能研究再次掀起浪潮。目前,人工智能已经推动制造、医疗、金融等行业发生一系列变革。相较之下,人工智能在出版业的发展稍显落后,出版业内部纷纷开始展开对人工智能的探讨。
具体到期刊出版业,一些学者研究了人工智能在宏观的期刊出版全流程中发挥的作用,如:刘平等[1]基于人工智能构建了在选题策划、内容生产、编辑加工、推送传播、阅读体验、内容服务方向区别于传统出版模式的智慧出版模式;向飒[2]研究指出,人工智能可以在选题策划、编辑出版、生产印刷、营销发行方面再造出版流程;陈鸿等[3]分析了人工智能与期刊融合发展的机遇、挑战和路径。一些学者研究了人工智能在科技期刊出版具体业务中的作用,如:张彤等[4]分析了人工智能辅助学术期刊同行评议的功能需求;刘芹等[5]分析了人工智能在审核和校对工作中的前景;李媛[6]构建了一种基于人工智能的能够提升论文传播效果和促进学术交流的学术期刊传播平台;曾玲等[7]分析梳理了人工智能可以参与的科技期刊学术不端检测过程,并提出了相应措施及未来的发展方向;徐玲英[8]指出可从机器翻译实现双语出版、利用虚拟现实实现内容表达创新、构建期刊群智能化服务平台这3方面来培育世界一流科技期刊;代妮等[9]分析了人工智能对科技出版、期刊编辑、学术传播带来的影响。在有关人工智能应用现状的已有研究中:张彤等[10]梳理了现有人工智能辅助学术同行评议的应用,阐述了其支撑算法,展望了未来的发展方向;刘畅等[11]探讨了人工智能在科技期刊选题策划中的优势与存在的缺陷,提出了编辑利用人工智能进行选题策划的策略。
综合分析可知,在目前关于人工智能在科技期刊出版的研究中,存在以下问题:(1)在研究范围方面,大都是对宏观层面的科技期刊进行研究,缺乏深入我国中文科技期刊出版微观层面的研究。我国现有科技期刊总量为4963种,其中中文科技期刊有4404种,占88.74%[12],是我国科技期刊的绝对主力。(2)在研究内容方面,大多是探讨人工智能所具备的能力,缺乏基于应用现状的问题分析。(3)在研究对象方面,针对具体办刊业务的较多,针对全流程出版环节的较少。
为发现并解决人工智能应用于中文科技期刊出版中的现实问题,促进人工智能更好地赋能中文科技期刊出版全流程,本研究在对中文科技期刊出版中人工智能应用进行界定的基础上,按照出版流程梳理了人工智能在中文科技期刊出版中的应用现状,指出了存在的问题,并综合分析了其可能的原因。此外,从出版单位和技术服务商视角给出了人工智能在中文科技期刊出版中的发展路径,以期从应用使用方和开发方双向共同促进人工智能在中文科技期刊出版中的应用。
1 中文科技期刊出版中人工智能应用的界定
人工智能(Artificial Intelligence,AI)这一概念由McCarthy于1956年在Dartmouth会议上正式提出[13]。在广义概念上,人工智能是指使得计算机拥有如同人类一样的感知、推理和行为能力的技术。在实践上,人工智能的重要实现手段是机器学习。常见的机器学习算法包括k近邻算法(k-Nearest Neighbor,KNN)、随机森林、决策树、支持向量机、深度学习等,其原理可抽象为对已知的样本数据进行训练,得到预测模型(这一过程即为学习),然后使用预测模型对未知数据进行预测。可以看出:人工智能的核心是学习;决定人工智能发展的三大因素是算法、算力、数据量。
由此,本研究认为,中文科技期刊出版中的人工智能应用应是基于机器学习而开发的应用,那些基于传统算法的计算机自动化程序,由于没有使用机器学习算法,则不能称为人工智能应用,如传统的文献搜索、期刊搜索、参考文献校对软件基于搜索结果校对著录信息、追踪论文情况构建引文网络、期刊指标展示等。这些功能本质上属于数据统计分析。当这些功能再进一步向人工智能方向发展,如智能化搜索引擎、基于大数据的个性化报告,则可称为人工智能应用。
2 人工智能在中文科技期刊出版中的应用现状
2.1 研究方法
在中国知网数据库中,以人工智能/AI、科技期刊/期刊出版组成关键词进行主题检索,共得到250余篇论文。筛选出其中符合本研究主题的论文,并分析这些论文的引文网络。最终,通过精读其中最有代表性的70余篇论文完成文献调研。
为拓宽调研范围、增加对实时动态的了解,在百度、Bing搜索引擎中,以同样的方法进行检索,分别得到743万和145万条检索记录,对其中前10页共计200条搜索记录进行精细调研。
2.2 应用现状
目前,中文科技期刊出版流程可大致分为投稿→审稿→生产→传播四大环节。本研究依此脉络对人工智能在中文科技期刊出版中的应用现状进行梳理。
(1) 投稿阶段。人工智能应用可以辅助论文写作。①人工智能可以将作者上传的中文摘要翻译为英文摘要。目前,翻译软件如Google翻译、百度翻译、DeepL等纷纷应用人工智能技术来提高翻译的准确率。②人工智能可以帮助作者实现论文校对,用于纠正错别字、识别语法错误等。国际上,Trinka、Grammarly等软件除了具有基础的校对功能,还可以选定语言风格进行语言润色。在我国,WPS软件中嵌入了基于AI的智能校对,可以检查错字、错词并自动给出修改建议。
人工智能应用还可以根据作者输入的论文摘要、关键词等信息,帮助作者推荐投稿目标期刊。在国际上,出版巨头爱思唯尔的产品Journal Finder基于Elsevier Fingerprint Engine,从文档的非结构化信息中挖掘信息,生成能够代表文本内容的加权术语索引,然后使用Okapi BM25匹配算法和topN平均得分排序算法[14],为作者推荐目标期刊。UNSILO公司产品采用自然语言处理(Natural Language Processing,NLP)和机器学习技术,抽取出文章重要概念并与现有期刊主题进行对比,为使用者推荐最合适的投稿期刊[15]。学术界也有使用深度学习进行目标期刊推荐的研究[16]。在我国,重庆非晓数据科技有限公司制作了基于语义分析的投稿分析系统,但没有披露具体的技术细节。
(2) 审稿阶段。人工智能应用可基于投稿论文进行审稿人和相关论文等推荐。国际上,Clarivate ScholarOne的Reviewer Locator、Elsevier的EES系统、Frontiers的AIRA(人工智能审查助手)都可以通过对接大型数据库,利用语义分析技术实现审稿人推荐[17-19]。UNSILO公司与Taylor & Francis、Springer Nature等进行合作,其产品也能够实现审稿人推荐、相关论文推荐,为编辑决策提供辅助[15]。在我国,玛格泰克、勤云、腾云、三才、仁和是较常见的中文期刊投审稿系统。其中,勤云投审稿系统能够对接其自主研发的“期刊界搜索引擎”的数据资源,并利用语义分析技术发现审阅过相关稿件的审稿专家,实现审稿人推荐。AMiner公司可以为期刊和会议推荐约稿专家、编委、与会对象等。这两者本质上都是根据特定信息推荐目标专家。
人工智能应用还可以进行学术不端检测,包括文字、图像等。国际上,除了基于语义的文字检测,Frontiers、Elsevier、Wiley、Springer Nature等国际出版商正在使用或测试基于图像内容的不端检测。进一步地,Elsevier的StatReviewer可以对投稿的数据和方法进行完整性检测[20],Frontiers的AIRA可以对投稿数据的完整性、查重检测以及识别潜在的利益冲突做出评估[21]。在我国,学术不端检测主要由数据库来完成。中国知网、万方、维普是中文科技期刊论文进行不端检测的三大数据库,三者都可以基于文本指纹特征完成基于语义的文字不端检测[22],但只有中国知网可以对疑似文字的图像进行不端检测,万方和维普则不对图像进行不端检测。
除此之外,人工智能在选题策划、判断论文质量这两个方面也有应用,但产品不多、覆盖范围不广,因此在此只做简要介绍。在选题策划方面,国内外暂无直接可用于选题策划的产品,但可基于现有产品进行选题策划,国外产品包括Meta、Yewno、Semantic Scholar、Iris.ai、Spaho,国内则有AMiner[11]。在判断论文质量方面,国外Editorial Manager(EM)投审稿系统中集成有元计量智能(Meta Bibliometric Intelligence),可以通过人工智能估算一篇稿件的被引频次和影响,Clarivate的ScholarOne可以通过语义分析自动提取论文关键概念、总结论文内容[23]。国内暂无相关产品。
(3) 生产阶段。由于国外对于论文生产环节的报道较少,因此这部分主要论述国内情况。①人工智能应用一体现在自动排版上。北京北大方正电子有限公司和北京仁和汇智信息技术有限公司近年来主推XML结构化自动排版。科技期刊论文版式相对固定,比较适合“机器自动化粗排+人工精修”的模式,该模式能够减少技术编辑的重复劳动,缩短生产周期,所制作的论文元数据也为后续多渠道传播提供了基础。②人工智能应用二体现在智能审校上。许多具有自然语言处理业务的机构都开发了校对软件,如北大方正和北京百分点科技集团股份有限公司的智能审校系统、黑马校对软件等。校对软件的应用时间已久,人工智能只是该应用的一种新的实现方法,能够进一步提升校对准确率。
(4) 传播阶段。人工智能应用一体现在论文精准推送上。国际上,各大出版商如Elsevier、Springer Nature、电气电子工程师学会(Institute of Electrical and Electronics Engineers,IEEE)等都在其数据库论文网页上实现了相关论文推送。在国内,中国知网、万方等数据库也通过网页推送论文,期刊自建网站采用TrendMD插件也可以达到这一效果。除了基于网页的推送,国内的AMiner和非晓公司实施基于邮件的精准推送,将自选论文推送到相关学者邮箱中。
人工智能应用二体现在论文信息自动抽取、传播内容再生成上。国际上,Springer Nature于2019年通过机器学习算法自动扫描和总结了53000篇锂离子电池相关论文,由此生成了世界上第一本由算法自动生成的摘要总结书籍Lithium-IonBatteries:AMachine-GeneratedSummaryofCurrentResearch。在我国,AMiner平台可以自动提取论文简介和重点内容,生成可供读者阅读的二次传播内容。进一步地,AMiner针对期刊推出了秒读论文业务,能够根据自动提取的论文信息,通过AI智能配音在线合成视频解说语音,形成论文数据解读视频。
此外,中国知网推出了基于大数据的期刊发展深度分析报告,在传统只提供期刊指标的基础上加入深度分析,能够为办刊人员提供决策辅助。
应该指出,不论是国内还是国外,数据库、数据科技公司等许多具有自然语言处理业务的机构正在向信息和知识服务商转型,进行了各种基于人工智能的探索,如学者画像、科研图谱、产品和解决方案等。这些应用有的是中文科技期刊出版全流程的一部分(如结合学者画像的专家推荐),有的是面向其他行业对论文数据进行深加工(如定制报告等知识服务)。本研究对后者不进行讨论。
综上可知,中文科技期刊出版中人工智能的应用现状可以概括为以下4点:
(1) 人工智能应用处于起步阶段,对标国际仍有一定差距。虽然人工智能应用在出版过程的4个阶段都有布局,但与国际出版形势对标可以发现,国内中文科技期刊在技术服务商的可选择性、应用类型的丰富性、应用的普及率、对于技术的探索程度方面都有一定差距。
(2) 人工智能应用的技术服务商主要是数据库和数据科技公司。在决定人工智能发展的三大因素中,算力和算法可以借助已有的AI开放平台获取,但中文科技期刊的元数据必须由技术服务商提供。因此,拥有元数据的数据库和数据科技公司具有数据优势。此外,数据科技公司在算法上也具有技术优势。
(3) 人工智能应用的目标人群主要是编辑和读者。人工智能可以利用已有数据去挖掘发现新规律,但并不能创造新知识。在目标人群中,编辑和读者是数据利用者,因此应用场景较多。作者是新知识创造者,人工智能只能在论文创作过程中提供帮助,因此应用场景较少。
(4) 人工智能应用大体可分为语言翻译、相关信息推荐、学术不端检测、自动排版、智能审校、传播内容二次生成、期刊报告共7种类型。
3 人工智能应用于中文科技期刊出版的现存问题
3.1 应用场景单一
腾讯研究院等将人工智能技术领域划分为五大技术方向:计算机视觉、语音处理、NLP、规划决策系统、大数据/统计分析[24]。基于前文对于中文科技期刊出版中人工智能应用现状的分析可以发现,除图像不端检测和秒读视频外,处理对象都是文本。在技术方向,这些应用大多属于NLP中的语义理解和大数据/统计分析中的推荐,目前人工智能在中文科技出版业中的应用场景十分单一。
是否人工智能的其他技术方向在中文科技期刊出版业中没有应用场景?答案是否定的。在计算机视觉方向,图像识别、图像理解、图像分类可帮助进行基于图像内容的图像查重、图像检索、图像打假,提升现有图像不端检测水平。在语音处理方面,可以利用语音识别、语义理解等技术探索基于听觉的创作和出版模式。2020年,时年86岁的俞茂宏教授向《西安交通大学学报》投稿。受困于眼疾无法“写”论文,俞教授在成稿以及校对过程中完全口述,依靠与秘书的沟通进行论文写作。诸如此类情况,完全可以借助语音处理技术,由“人工”升级至“人工智能”,实现语音与文字的互转,助力论文写作和科研。此外,针对科技期刊出版业中的语音助手、语音出版等也可进行进一步探讨。在NLP上,则可以进行更深入的探索,如:利用机器翻译,出版商进行双语出版,读者进行非母语论文阅读;利用语义理解构建问答系统、知识图谱,构建学者、期刊的学术画像,分析提取论文主要信息,自动进行论文写作等。规划决策系统和大数据/统计分析更像是具体应用的抽象描述。图像、视频、语音、文本都可以作为决策系统和大数据分析的输入,为期刊工作者提供决策和建议或是进行推荐和预测,具体包括提供办刊方向、选题方向,推荐审稿专家,预测期刊发展、影响因子等。
3.2 技术层次较低
近年来人工智能得以再次兴起,最重要的原因是深度学习算法的异军突起。深度学习是一种基于神经网络的机器学习算法,其加深了神经网络的深度,使得网络性能大幅提升。深度学习能够自动提取输入数据的特征,避免了传统机器学习需要采用人工的不足,在处理图像、音频、视频等非结构化数据时优势特别明显。可以认为,深度学习是最先进的人工智能算法之一。
目前在中文科技期刊出版业中,对人工智能先进算法的应用层次仍处在较低的水平。以科技期刊审稿中不可或缺的重要一环——学术不端检测为例,虽然中国知网、万方、维普三大中文期刊数据库都具备学术不端检测功能,但目前只有中国知网能实现图像不端检测功能。根据中国知网公开的信息,学术不端系统目前已具备了对图像内容进行检测的技术,正在集成测试和优化[25],其5.1版本上线了疑似图像文字的智能检测功能,并采用光学字符识别(Optical Character Recognition,OCR)技术提取图像中的文字进行不端检测[26]。在图像检索上,中国知网使用两种方式:一是基于关键词检索图题;二是以图搜图,但是笔者多次尝试,截至2022年2月11日,这一功能尚无法使用。并且,中文科技期刊论文中大量图片是实验数据图、仿真图、实验结果照片等,“OCR+文字检测”从原理上就无法对这些图像进行检测,只能对少部分含有文字的图像如流程图或故意将文字转换为图像的学术不端行为进行检测。对于图像库中的相关图像,可以提供语义相关图像,但无法提供内容相似图像。在技术原理上,“OCR+文字检测”和标签搜索都没有利用机器学习图像的本质特征,所采用的技术已落于下乘。
对标国际期刊出版,美国癌症研究协会(American Association for Cancer Research,AACR)、世哲出版公司(SAGE)、JCI等均采用以色列公司的Proofig人工智能图像检测软件。该软件通过提取图像特征进行对比,克服了图像大小、位置、方向、重叠、部分复制以及这些因素组合的影响,能够有效检测图像重复,并且可以发现由计算机生成、修改的虚假图像[27]。Frontiers自行开发了图像检测功能内置于AIRA中[21],Elsevier、Wiley、Springer Nature在测试“人工智能+人工”的图像学术不端检测技术。雪城大学Daniel Acuna的机器学习团队开发了论文图像查重软件,并利用该软件对3500篇论文的21000幅图像进行检测,在4小时内查出大约400幅疑似重复图像[28]。对标互联网公司,基于深度学习的识图技术已发展多年,并在商业活动中取得了良好的效果,如百度识图[29]、谷歌搜图[30]、淘宝拍立淘[31]。不仅如此,百度还将基于深度学习的图像识别技术应用于百度街景等互联网产品以及自动驾驶等创新性研究项目[29]。由此可见,中文科技期刊出版业对于人工智能技术的应用尚处在较低层次,尤其是在处理以图像为代表的非结构化数据方面,没有充分发挥出人工智能的优势。
3.3 缺乏面向出版单位的系统性、一体化平台
对于中文科技期刊的出版单位,在出版全周期内,编辑需要在多平台上进行操作,所使用的人工智能技术由多个技术服务商提供:在投审稿系统上获取推荐审稿人;在数据科技公司的专家邀请平台上获取推荐专家;在论文邮件精准推送平台推送论文;与投审稿系统公司和数据科技公司合作,实现期刊网页上的论文推送;在数据库上进行图像不端检测,获得期刊评价报告;在生产公司平台上实现自动排版;通过技术服务商的软件或插件实现智能审校。可以看出,在目前的中文科技期刊出版流程中,出版单位需要在不同技术服务商的多平台上进行手动切换和信息传递,如此繁琐的操作可能会带来许多额外的工作。整体来看,在中文科技期刊出版领域,人工智能应用的集成度较低,缺乏面向出版单位、集成各种人工智能应用的一体化平台。
3.4 技术供给和需求不匹配
纵观第2节梳理的具有中文科技期刊人工智能应用的技术服务商,大部分的主流业务并非期刊业务,如中国知网是数据库,AMiner是科技情报大数据挖掘与服务系统平台,方正在出版业中为排版字库相关的公司。这些技术服务商往往以现有条件为应用开发的出发点,其思路为“基于现有平台,我能在期刊出版业中挖掘什么样的业务增长点”,而并非“期刊出版业需要我提供什么样的支持”,导致应用技术的开发偏离需求导向,体现为应用的用户友好性设计不周、使用不便捷、效果展示不全面等。
对于基于人工智能算法的推荐应用,技术服务商和出版单位对于推荐结果的关注重点并不一致。技术服务商关注的是推荐的准确性,在提供推荐结果报告时,均是基于大量用户的隐式反馈提供统计结果。对于购买了推送服务的出版单位,不论是论文的网页推荐还是邮箱推荐,出版单位最终只能看到包括点击率、打开率、地区分布、机构分布、学者h指数分布等基于用户行为的隐式反馈结果,TrendMD和AMiner的推送报告如图1所示。出版单位更加关注推送的具体学者、学者对于推送的反馈(准确、不准确)、学者未来是否会引用论文、论文下载次数和被引频次的变化等显式反馈,这需要对收到推荐的用户进行具体行为的持续追踪。但是目前尚未有技术服务商建立起这样的通路来为用户提供更多的显式反馈数据。技术提供方的开发思路和技术使用方的应用逻辑不接轨,造成了人工智能技术在中文科技期刊出版业中供需不匹配,减缓了先进技术在该领域的应用进程。
4 人工智能应用于中文科技期刊出版的问题分析
基于前文对人工智能在中文科技期刊出版中的应用现状和所存在的问题进行分析,结合我国国情和人工智能技术实际发展水平,本研究认为出现这些问题的原因主要有以下4个方面。
4.1 人工智能的应用未引起出版单位的足够重视
为抢抓人工智能发展的重大战略机遇,构筑我国人工智能发展的先发优势,我国于2017年发布实施《新一代人工智能发展规划》,提出了面向2030年我国新一代人工智能发展的指导思想、战略目标、重点任务和保障措施。但是,在我国中文科技期刊出版界,“人工智能+出版”的模式尚未受到足够的重视,这与我国出版单位较为分散、内部缺少强有力的推动有关。我国平均每个科技期刊出版单位出版期刊1.16种,单刊编辑部作为出版单位的占比高达77%[12]。每个出版单位可以对是否采用新技术进行独立决策,而目前部分从业者对人工智能算法怀有抵触心理,部分对采用人工智能技术的效果持怀疑态度,由此对于是否采用人工智能应用尚未达成有效共识。并且,科技期刊出版界对于相关的人工智能技术的研究较少、关注度较低。以《中国科技期刊研究》和《编辑学报》已出版的文章为例,以“人工智能”为关键词在中国知网进行检索,分别只得到17篇和5篇论文。人工智能在中文科技期刊出版的应用进程中缺少来自需求方的推动力,这也制约了人工智能技术在该领域的深入开发。
图1 TrendMD和AMiner的部分推送报告(a)TrendMD;(b)AMiner
4.2 技术服务商进入壁垒较高,预期收益不明
人工智能技术开发具有高固定成本和低边际成本的特点。除人力、物力、财力之外,人工智能应用研发还涉及数据、算力、算法,前期研发投入巨大,进入壁垒较高。而在我国,中文科技期刊出版的社会属性远大于经济属性,这更加导致人工智能在该领域应用的预期收益不明,研发者即技术服务商探索科技期刊业务的热情不高。对于封闭性较强的期刊内部数据,只是在协调出版单位、投审稿系统公司的数据获取这一个环节,都需要巨大的沟通成本、时间成本,再加上研发过程中的各种投入,科技期刊出版领域的人工智能技术研发成本高昂。然而,中文科技期刊出版业最终能够带来的市场收益却难以评估。这些数据能够实现哪些功能?有多少用户愿意付费使用?市场前景并不明朗。较高的行业技术壁垒和较大的收益不确定性,导致我国从事科技期刊出版领域人工智能技术研发的机构屈指可数,由此导致目前该领域人工智能应用开发的深度和广度仍然不充分,存在较大进步空间。
4.3 底层数据利用不充分
4.3.1 积累的大量数据为文本数据,数据类型单一
相较于图像、视频、音频等多媒体数据,中文科技期刊出版业中数据资源最充足的是文本数据。无论是基于统计产生的数据库、各种格式的论文文件、论文信息,其数据主体都是文本。尤其是论文信息元数据(标题、作者、单位、摘要、关键词、中图分类号、基金、参考文献),具有数据格式规范、传播范围广、免费可用的优势,可用性高且获取方便。因此,目前人工智能应用也主要基于这些数据进行开发利用。
4.3.2 出版单位数据利用率低
目前,技术服务商的数据主要来源于互联网上的公开信息(如学者主页、已发表的论文、已公开的文件等),没用充分利用出版单位的数据。出版单位数据时效性更高、粒度更细,且包含许多测试用例,是非常值得利用的资源。出版单位数据包括两大类:(1)论文投审稿过程中产生的数据,例如以审稿人为主体的元数据即审稿记录,以作者为主体的元数据即投稿记录,以稿件为主体的元数据等。这些数据的体量相当庞大,需要经过提取和整理才能成为人工智能所需的元数据。(2)论文元数据。近年来越来越多的出版单位意识到论文HTML格式在线阅读的重要性,通过前处理或后处理的方式,生产出XML格式论文,就可得到全文元数据。即使是论文采用传统PDF格式上网的网站,出版单位也拥有文章标题、作者、摘要等元数据。但是,目前这类元数据生产完成即结束使命,主要功能在于展示和成为检索资源。出版单位数据是非常有价值的人工智能算法底层数据,但没有得到有效利用,可能的原因有以下两点:
(1) 出版单位数据主要分散于投审稿系统内部,获取难度大。中文科技期刊出版单位大部分采用线上投审稿系统,因此出版单位数据主要存储于投审稿系统,即网站所在的服务器中。一般情况下,投审稿系统支持通过预设的接口导出部分数据(如审稿人和作者的基础信息、稿件流转单等)。但是,这些数据存在3个缺陷:①不能按照编辑的需求支持自定义数据导出,部分数据无法导出;②数据的关联度不够,需要对导出数据进行再次关联;③数据的大规模导出支持度不够。整体而言,支撑人工智能应用的数据分散于投审稿系统的数据库中,获取这些数据需要与投审稿系统公司沟通进行数据的二次开发,获取难度较大。
(2) 出版单位数据噪声大,需要进行大量数据预处理。不同于从论文内容直接生产的干净元数据,投审稿过程产生数据的规范程度和完备程度都较低,存在大量数据噪声。投审稿系统的用户数量大且对于数据没有指定的规范格式,造成数据规范性差。以审稿专家研究领域为例,常见的形式是短语罗列,但分隔符却有回车、分号、逗号、特殊符号等,还有分段式语句描述,这些都为NLP处理带来困难。在完备程度上,部分元数据缺失。以《西安交通大学学报》投审稿系统中给出的审稿人认真度为例:《西安交通大学学报》是我国较早使用投审稿系统的期刊之一,早在2007年,该刊编辑部即参与了三才投审稿系统(目前仍在使用)的部分设计工作,属于国内数字化建设启动较早、建设较为完善的中文科技期刊之一,因此该刊的数据情况具有一定的代表性。在该刊的投审稿系统中,审稿记录最多的审稿人共审理了106篇稿件,认真度全部为默认分数5分,其中包括编辑撤销和审稿人退审的稿件评分。可以看出,这部分数据为无效数据。规范程度差和完备程度低的数据需要协同编辑、技术人员进行大量数据清洗,才能成为人工智能技术可用的元数据。
4.4 核心人才缺乏
4.4.1 我国人工智能人才存量严重不足
人工智能依赖于数据、算力、算法三大要素,技术层面的影响因素复杂,所需专业人才需要较多的知识储备,至少包括数学能力、编程能力和算法基础,人才培养周期长,进入门槛较高。根据《人工智能产业人才发展报告(2019—2020年版)》,我国人工智能人才缺口达30万,核心岗位算法工程师的人才供需比仅为0.13。根据文献[13],我国从业10年以上的人工智能人才比例不足40%,而美国的这一比例则超过70%。可见,目前我国人工智能人才无论数量还是经验都远远不足。
4.4.2 中文科技期刊出版业缺乏高质量的人工智能人才
对于出版单位,人工智能人才严重不足且缺乏对人才的吸引力。我国科技期刊从业人员半数以上为采编人员,刊均从业人员为7.5人,4069个(95.49%)出版单位出版1种科技期刊[1]。一个只有几个人的出版单位没有人力进行人工智能应用开发的探索,出版单位也难以提供财力、算力、技术等其他支持。在吸引人工智能人才方面,出版单位的技术服务从业者主要在校对、印制、排版等传统技术岗位,仅占出版业全体从业者的1.58%,学历集中在专科及以下,出版人员月收入集中在5001~8000元[32]。
对于技术服务商,人工智能人才水平不一,高水平人才不足。本研究调查了技术服务商的人员招聘情况。根据公司官网和招聘网站上的信息,招聘人工智能算法工程师的机构包括中国知网、万方、维普、中国科学技术信息研究所、方正、AMiner、非晓,投审稿系统公司除仁和外都不招聘算法工程师。以NLP工程师为例:AMiner和方正提供的月薪在15000~70000元不等,要求硕士研究生及以上学历;中国科学技术信息研究所要求博士研究生学历;中国知网的社招要求为本科以上学历、2年相关工作经验;维普提供的月薪在12000~18000元,要求硕士研究生及以上学历;非晓为大数据应用开发工程师提供的月薪在4000~8000元,要求具有大专以上学历、1年开发经验。
根据《人工智能产业人才发展报告(2019—2020年版)》,近半数算法研究岗和应用开发岗的月薪在35000元以上,准入学历为硕士研究生及以上。对比分析可知,在我国人工智能人才缺口较大的情况下,中文科技期刊出版业的相关机构难以提供具有竞争力的薪酬水平与职业发展前景来吸引高水平人才。
5 人工智能应用于中文科技期刊出版中的发展路径
针对第3节提出的4个问题,本研究分别从出版单位和技术服务商两个视角探讨人工智能在中文科技期刊出版中的发展路径,以期从应用使用方和开发方双向共同促进人工智能在中文科技期刊出版中的发展。
5.1 坚持需求牵引,充分挖掘人工智能在中文科技期刊出版业的应用场景
(1) 出版单位和技术服务商应加强对于人工智能的理解和认识,明确人工智能在减少重复劳动和辅助决策中的作用,客观分析人工智能对于中文科技期刊行业的影响和潜力。出版单位、技术服务商应在内部和外部进行沟通交流,征询包括学术共同体(作者、读者、审稿专家)、编辑、技术工程师等各类人员意见,以发展的眼光深挖人工智能在中文科技期刊出版业的增长点,让人工智能更好地赋能中文科技期刊出版业。
(2) 出版单位应加强数据存储。出版单位不仅要储存结构化数据,也要储存各种非结构化数据,如图像、语音、视频、文档等。出版单位要掌握数据的主动权,与技术服务商密切交流,通过促使技术服务商开放接口或其他方式,将数据留在出版单位,为后期多应用场景的开发或使用做好准备。
(3) 技术服务商可打造面向多应用场景的核心人工智能引擎。对于相同的数据,尽量挖掘出多种应用场景,打造核心人工智能引擎。面对不同场景时,根据具体情况对该引擎稍加调整,再配合不同前台,即可直接投入使用。例如,应用论文信息元数据,可构建面向期刊推荐专家(作者、审稿人、编委)、专题,面向会议推荐专家,面向读者推荐相关论文等不同场景的核心文本推荐引擎。同理,图像核心引擎可以面向图像检索、图像查重、相关图像推荐,预测引擎可以面向期刊分析、选题分析等。
5.2 加强技术储备,积极推动人工智能应用向高技术层次迈进
(1) 出版单位应学习一定的人工智能知识,在能力和条件允许的情况下可尝试应用开发实践。进一步地,可组织建立科技期刊出版业人工智能技术联盟,促进出版单位之间共同交流人工智能技术与应用。
(2) 技术服务商应加强技术储备,提升现有技术层次。一是在内部通过产品开发与迭代、培训和招聘人员等方式加强研发,进行内部造血;二是积极寻找外部合作,尤其是借力具有一定技术储备的大型机构,通过购买成熟的商业产品,或与互联网公司、高校等科研机构联合开发人工智能应用,促进人工智能应用在中文科技期刊出版业落地。
5.3 提高数据可用性,加强技术开放,打造面向出版单位的一体化平台
(1) 出版单位和技术服务商应合力提高数据的可用性。数据是应用的基础,只有数据完备、准确,一体化平台中的各类应用才能正常运转。出版单位要充分认识到数据的重要性,在日常工作中按照统一规范输入数据,完善投审稿系统、传播平台中的数据,确保数据的准确性和有效性。技术服务商在程序设计时,也应考虑规范性校验。例如,缺省项不应采取固定值,而是根据系统某些数据生成变化值。出版单位和技术服务商应合力提高数据的可用性,为未来一体化平台的应用做好数据准备。
(2) 技术服务商应加强技术开放。各技术服务商可在保证网络安全的基础上,从用户体验出发,评估市场需求,封装人工智能应用,开放应用程序编程接口(Application Programming Interface,API);可考虑提供公有云平台即服务(Platform as a Service,PaaS)接口,通过直接调用或使用软件开发工具包(Software Development Kit,SDK)调用API完成相应功能。技术服务商之间要加强技术开放与共享,共同促进人工智能应用嵌入现有的期刊出版相关平台。
5.4 提高反馈效果显示度,增强应用可信度,促进人工智能应用的落地使用
(1) 出版单位应密切监测人工智能应用的反馈效果,以此增强人工智能应用的可信度。在目前技术开发商反馈的应用效果偏离出版单位需求的情况下,出版单位应明确现有人工智能应用的能力,积极探索尝试,对自身关注的效果自行建立监测机制,以此增强对人工智能应用的信任度。例如,监测自动化排版后出版周期是否缩短,采访可能被推荐对象对于推荐内容是否满意,定时监测论文下载、引用数据的变化等。《西安交通大学学报》使用AMiner邮件推送后,自行监测的大数据故障诊断专题论文的推送效果如表1所示。虽然被引频次的增加不只取决于论文推送这一因素,但每次推送后均进行定时监测,可反映出一定的推送效果。
(2) 技术服务商应在反馈效果中增加出版单位关注点的显示度。一是在保护商业秘密的基础上,促进多平台间的数据共享,构建更加完善和庞大的人工智能期刊业务生态圈;二是在保证用户隐私的基础上,加强对于用户真实身份的认证,增加显式反馈入口,实现对用户行为的长效监测。技术服务商的应用开发思路及效果展示思路应向出版单位的关注点靠近,以此提升出版单位对于人工智能应用的信任度。
表1 《西安交通大学学报》自行监测的大数据故障诊断专题论文的推送效果
5.5 提高从业人员的人工智能素养,吸引高质量人才就业
出版单位和技术服务商对内应提高从业人员的人工智能素养,对外应吸引高质量的人工智能人才从事科技期刊出版业相关应用的开发。出版单位应着重加强理解人工智能的内涵,可通过主动寻找或设立激励项目,联合外部机构人员开发人工智能应用。技术服务商应着重加强提升专业技能,可通过加强宣传、招聘实习生、提高就业待遇等,进一步吸引人工智能人才。
6 结语
目前,各行各业对于人工智能的研究方兴未艾。本研究基于中文科技期刊出版中人工智能的应用现状,以人工智能在期刊出版全流程的具体应用为主线进行分析。结果发现,人工智能在我国中文科技期刊出版中的应用存在应用场景单一、技术层次较低、缺乏一体化平台及技术需求和供给不匹配的问题,其背后是出版单位重视程度不够、技术服务商进入壁垒高、底层数据利用不充分、核心人才缺乏这4大方面的原因。由此,本研究认为出版单位和技术服务商应从坚持需求牵引、加强技术储备、提高数据可用性和加强技术开放、增强应用可信度、提高从业人员人工智能素养这 5个方面进行发展。随着出版单位和技术服务商不断加强探索与尝试,未来人工智能与中文科技期刊出版业的深度融合将带来更加广泛而深刻的变革。
本研究也存在一些局限,如:所指的人工智能均为弱人工智能,没有涵盖强人工智能的影响;期刊出版目前正在转型为知识服务,本研究尚未对知识服务过程中的人工智能展开深入研究。这些都是下一步研究的方向。