出版人工智能的发展与应用
2022-05-24张新华张子微李梦竹
张新华?张子微?李梦竹
【摘要】以大数据、自然语言处理、知识挖掘等为基础的出版人工智能技术的应用推动了出版业智能发展,引发了出版内容的智能化生成、出版流程的智能化再造和用户体验的智能化升级,为出版业高质量发展提供了新的动力。
【关 键 词】出版人工智能;出版内容;出版流程;用户体验
【作者单位】张新华,北京印刷学院新闻出版学院;张子微,北京印刷学院新闻出版学院;李梦竹,北京印刷学院新闻出版学院。
【中图分类号】G230.7【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2022.08.010
近年来,出版业在人工智能技术驱动下逐渐走上智能化发展轨道。有学者用“出版人工智能”的概念来界定出版领域的人工智能技术,认为它“是以知识为生产要素,以基于人工智能的知识挖掘为核心技术,带来新知识的自主形成和规模化使用,并实现人工智能技术在出版应用的系统工程”[1]。在过去几年中,出版人工智能在内容创作、出版流程、终端消费三大环节上推动了出版业的智能化转型,为出版业高质量发展提供了新的动力。
一、出版内容的智能化生成
现阶段人工智能在出版内容创作中的应用主要有两种方式:一是机器生成内容,即具有写作功能的人工智能工具独立进行内容生产活动;二是人机结合生成内容,即创作主体利用人工智能技术提高内容创作与生成的效率和效果,人工智能在其中发挥辅助作用[2]。
1.机器生成内容
機器生成内容是在自然语言学习、深度学习、大数据挖掘与分析等人工智能技术基础上发展起来的,呈现从简单的报道性消息写作向文学、学术等复杂文本创作的发展态势。
(1) 文学创作领域自动写作的尝试
文学作品的人工智能创作需要借助深度学习、神经网络、自然语言处理等技术,通过对海量文学作品的“阅读”,识别文学经典作品的高频词、故事情节、人物关系等,然后按照系统指令自动生成诗歌、小说、剧本等文学作品。
2008年,文学界第一部由人工智能PC Writer2008
创作的俄罗斯长篇小说《真正的爱情》出版,它是以《安娜·卡列尼娜》为蓝本,行为风格模仿村上春树依据源于18部经典小说的精彩情节建立的情景库叙事。2016年3月,《计算机写小说的那一天》《你是AI TYPE-S》等4部科幻小说入围日本“星新一文学奖”,它们均为人工智能创作的产物。2017年5月,微软人工智能小冰推出首部“个人”创作的诗集《阳光失了玻璃窗》。作为一个具有少女情怀的“诗人”,小冰在充分学习1920年以来中国519位诗人所创作的近万首现代诗,并在耗时100小时、训练超10000次的基础上,快速创作出70928首作品。《阳光失了玻璃窗》便是由出版单位从中挑选出的139首高质量诗歌汇编而成。
(2) 专业/学术著作领域自动写作的突破
2019年4月3日,施普林格·自然(Springer Nature)宣布出版该公司第一本人工智能原创的化学类书籍——《锂离子电池:机器生成的当前研究摘要》[3],由此拉开了机器学习生成专业/学术类内容探索的序幕。该书以施普林格·自然和德国法兰克福大学共创的Beta Writer算法为支撑,利用基于相似性的聚类分析技术,先将海量源文档排列成连贯的章节,然后创建文章的摘要并在其内部加入超链接,为读者阅读原文提供便利。该书共247页,内容除由AI自动总结生成的锂离子电池领域近3年超150篇突出研究成果的摘要外,还以图文并茂的形式呈现包括分离器、聚合物电解质、热行为和建模等方面最新的研究信息和概述。AI独具创新性的结构化摘录成书功能,能够帮助科研人员高效地管理海量信息,达到快速选择、使用和处理内容的目的。
2.人机结合生成内容
人机结合生成内容的优势主要体现在利用人工智能技术优化内容生产流程,提高作者创作效率等方面,根据出版产业细分表现为不同的应用,在学术出版、网络文学创作和有声读物制作等领域发展迅速。
(1) 学术出版
出版人工智能给学术领域的知识生产和传播带来深刻变革,在智能搜索和智能编辑环节表现最为突出。
在智能学术搜索领域,美国深度学习专家Andrej Karpathy以论文稿件预收录文库arXiv为基础创立的搜索引擎arXiv-sanity便是其中翘楚。它不仅能可视化呈现结果,除标题、作者等基本信息外,还可显示论文梗概图,帮助研究者准确直观地了解论文的大致内容,从而有效防范内容误判。此外,该平台还具备较强的推理和关联能力,只要用户点击平台提供的“显示相似”功能,系统就会自动确定论文主题,生成关联论文的推荐列表供用户查阅。Iris. AI则是一款人工智能科研助手软件,可有效减少学术生产初期的文献挖掘和阅读工作量。用户只需在软件中输入自己期望搜索的内容,软件便会自动从中提取关键性语义概念,随后输出相应的学术成果,并以知识图谱的形式系统展现论文的核心内容[4]。与前两者根据用户输入内容推荐文献的技术路线不同,牛津学术专著在线(Oxford Scholarship Online)主要依靠知识链接形成知识信息的网状结构,对学术内容的参考文献做系统性处理,使其拥有可关联的标记,并连接到对应数据库,从而帮助读者检索[5]。
在智能学术编辑领域,2010年,美国ACCDON公司旗下的智能人工语言编辑服务平台Let Pub在上海成立分公司,开始向中国科研用户提供包括SCI论文英语润色、资深专家修改润色等多种学术论文服务,并利用人工智能技术在人工编辑前后对论文语言质量评分,从而对文字编辑的修改效果进行判断。2019年,基于机器学习、自然语言处理、数据库、知识建模等技术的UNSILO平台正式上线,其自动审阅、修改论文初稿等功能有效缩短了作者和编辑团队审查稿件所需的时间[6]。2020年,世界最大的开放存取期刊出版商之一Hindawi宣布将人工智能学术语言平台Writefull整合到论文投稿过程中,以帮助作者提高语法、拼写和语言水平。78709D71-B1AF-434B-87A9-F4A4D72D24AA
(2)网络文学创作
网络文学诞生于数据化的网络空间,其可计算性和灵活性的特点为语义识别、语言合成等自然语言处理技术的应用提供了良好的基础[7]。现阶段,人工智能在网络文学领域的应用集中于辅助创作环节。如Open AI公司设计推出的文本生成(text generation)人工智能GPT-3语言模型,虽在逻辑和理性方面稍显逊色,但无需大量编辑即可生成内容的能力,以及流畅自然的语言描写能力,使其在网络文学撰写领域显现巨大优势。
此外,还有专门用于辅助网络文学创作的诸如“橙瓜码字”APP等智能工具。这类程序以人工智能强大的数据基础为支撑,根据创作者的人物、情节、道具等素材需求辅助作者组织文章。“火龙果”APP也是辅助网络文学创作的工具之一,可利用文本挖掘和算法分析技术建立自动纠错系统,为作者和编辑团队提供语法检查、润色转写、智能翻译等服务,有效缩短网络文学内容生产周期。
(3)有声读物制作
传统有声读物的音频制作完全依靠人工录播来完成,不仅成本高、效率低,而且质量良莠不齐,为解决这些问题,人工智能企业纷纷涉足于此[8]。如微软公司2018年7月发布的小冰第六代,在原有功能的基础上尝试有声书创作,为垂直有声读物领域搭建内容生产线,仅需20分钟便可完成传统有声读物10小时的内容生产,显著降低了制作成本。2020年科大讯飞公司推出的翻译机3.0版本,收录了61种语言,可借助强大的智能语音技术进行在线同声传译,实现了“从声到声”的转换,准确率高达95%。
翻译机在有声读物领域的应用能在一定程度上减少工作量,显著提升效率。如基于微软Azure云计算操作系统的认知服务语音合成平台Speech Studio,利用神经网络、深度学习等人工智能技术实现了有声内容的实时创作,可为用户提供直观、实时调整的语音参数服务,助力准确且富有表现力的有声读物产品创作,促进该环节更为高效地运行。
二、出版流程的智能化再造
出版人工智能对出版业务流程的智能化再造主要表现在选题策划、编辑加工、营销发行三个环节。
1.选题策划智能化
选题策划智能化的本质是将深度学习、大数据挖掘与分析、自然语言处理等技术应用到选题形成过程中,通过对平台数据的提取与分析深度挖掘用户需求,捕捉读者研究背景和兴趣,进一步优化选题策划流程并大幅度提高工作效率[9]。
近些年,智能选题策划软件层出不穷。如全球领先的学术出版商爱思唯尔以Science Direct平台存储数据为抓手,分析某阶段全球范围内学术研究的热点,利用Scopus数据库搜寻热门选题的顶尖研究人员并与其建立联系,合作出版相关选题专著。《纽约时报》研发的智能机器人Blossomblot以协作工具Slack为技术支撑,通过分析网络中的海量出版物预测哪些内容更具市场推广效应,从而帮助编辑挑选适宜的选题。北京开卷信息技术有限公司开创的中文图书市场零售数据连续跟踪监测系统,服务对象覆盖海内外多家出版集团与近400家国内图书出版单位、2000多家零售书店和众多数字内容运营平台,依托其庞大的作者数据、销售数据、用户消费行为数据等,为编辑选题策划提供市场数据支持,实现市场精准定位。
2.编辑加工智能化
在自然语言处理、图文识别、机器学习等技术的加持下,人工智能编校成为现实,从根本上提高了编辑加工整理乃至出版全流程的工作效率[10]。编辑可以在海量语料库、知识库的支持下,实现稿件内容的智能编辑、智能审校和智能排版,高效完成初级的编辑加工整理工作。
如北大方正推出的方正智能辅助审校系统,可利用机器学习、大数据、自然语言处理等人工智能技术,基于前沿深度神经网络的纠错模型对审校场景进行深度分析,通过不同的算法模型进行纠错。该系统不仅能够对内容进行包括字词检查、标点符号检查、文章逻辑检查、上下文查重、敏感词检查、专业术语检查等在内的多方面检校,还支持云端在线审校服务,并提供实时结果,极大提高了编辑审稿的工作效率和编校质量。当前,方正智能辅助审校系统已服务全国1100多家出版社、期刊社、报社等新闻出版单位,借助人工智能技术应用的自然语言处理系统对出版内容进行反剽窃、敏感词、涉黄内容排查,以保证出版物的语言规范性。
3.营销发行智能化
人工智能对出版营销发行流程的再造主要是通过对用户在相关平台的行为、交互等海量数据进行抓取与分析,推断目标消费群体的地域分布、阅读偏好、购物习惯等,然后对该群体进行系统筛选,识别价值高、转化变现可能性大的优质用户进行精准推送。出版单位可以数据挖掘技术为支撑,发展用户个性化定制业务,根据用户的有效信息数据向其投放个性化定制广告。用户也可根据自身需求与出版单位合作,打造个性化的出版物,从而实现附加服务的升级,提高出版业的市场竞争力。
人工智能在营销环节的应用不乏优秀案例。如由美国国家科学基金会资助研发的AI驱动分析平台——布克斯比(Booxby),能够准确识别内容和创作者,基于内容分析来推断、量化和预测读者经验,用以辅助图书的发行和营销工作,其预测的准确度远超编辑和图书营销人员。德国新型出版公司Inkitt(Hipster Library)利用人工智能技术演算趋势数据判断用户使用模式,通过收集读者偏好和意见修改作品内容,捕捉作家、作品、读者的最大化互动流量,形成讀者作者互动的出版模式[11]。阅文集团在销售版权前会利用人工智能技术对作品的受众进行预测,综合分析受众的年龄、购买力、消费行为等信息,通过对受众需求的把握来判断版权价值,从而打造更加符合受众预期的作品,实现对目标IP的精准化营销,进一步扩大商业版图。
三、用户体验的智能化升级
用户作为出版产品和内容的终端消费者,在出版人工智能的辅助下,实现了阅读活动从单向传受到双向交互体验的转变。在实践中,智能化个性推荐、智能化有声阅读和智能化交互伴读等应用发展迅速。78709D71-B1AF-434B-87A9-F4A4D72D24AA
1.智能化个性推荐
智能检索技术与出版消费环节的结合可以有效解决出版物供需不符、信息冗余等问题,从而提高出版质量。现阶段,出版物智能检索与推荐在各大图书销售平台广泛应用。
以当当网为例,用户进入当当网首页,便会发现网站中设有“猜你喜欢”“您可能感兴趣”“和您兴趣相似的顾客还关注”等栏目,将智能推荐渗透至用户消费的各个环节。当当网的个性化智能推荐系统采用嵌入式推荐架构,在挖掘海量用户行为数据的基础上,对用户购物车商品、已完成交易数据、相似用户购买数据等进行分析,并对用户评价、书架数据、用户自主定制爱好商品、收藏等数据进行分类整合,最大限度挖掘用户潜在需求,提高智能推荐的准确率。若用户的消费喜好发生变化,该系统还可实时更新,即刻分析并及时推荐与其需求相匹配的商品。此外,个性化智能推荐系统还可以根据用户爱好推荐畅销书、旧书等不同类别的个性化榜单,根据用户浏览历史推荐商品,为顾客寻找志趣相投的朋友,实现基于用户聚类的协同过滤推荐。用户网络行为越活跃,智能推荐的准确率就越高。
智能化个性推荐在为用户提供合理阅读建议方面发挥了重要作用。如2019年QQ阅读7.0版本推出的“书找人”功能,在原有数据挖掘与分析技术的基础上,综合运用神经网络、自然语言处理、机器学习排序等多种技术,实现了核心算法排序革新,大幅度提高了推荐的精准度。平台通过对用户阅读喜好、浏览历史和用户身份等信息数据的抓取,借助有针对性的数据分析技术提取用户阅读偏好系数,向用户提出可行的阅读建议。
2.智能化有声阅读
有声书产业的兴起为智能语音技术开辟了一个新的应用领域。智能化有声阅读依赖智能语音合成技术(TTS,又称文语转化技术),在内置转化引擎的支持下,借助神经网络技术实现了文本“拼音—音素—ID”的转化,通过ID编码使其拥有基础特征,然后在对数据进行多轮处理的基础上构建训练模型,输出相应语音。
与有声读物内容生产架构不同的是,智能语言合成技术不再受制于配音人员的职业素养、专业水平等主观因素,而是通过人工智能技术直接生成,极大减少了人力、物力的浪费,给用户带来全新的阅读体验。目前,智能语音合成技术下的有声阅读已经成为各大阅读平台的标配,如微信读书的“AI男声/女声”智能语音、天猫读书的AI趣味听书、豆瓣阅读的朗读功能,以及QQ阅读、掌阅iReader和起点读书的听书功能等,均可实现文本内容在线语音输出,并根据用户喜好提供多种声音类型,满足用户多样性、个性化需求。
3.智能化交互伴读
出版人工智能在用户终端环节的进步不仅体现在功能上,还体现在人格化的情感和信息交互上。近年来,基于自然语言处理、机器学习、语音合成和语音识别技术的智能交互功能重要性日益凸显,主要以智能机器人的形式呈现,增强了用户与阅读平台之间的黏性,通过机器人伴读服务营造陪伴感和关怀感,赋予人机交互更多情感。
当前市场中的智能交互伴读机器人主要以少年儿童为服务对象,覆盖少儿出版、儿童绘本等领域。如2017年9月,物灵科技有限公司设计推出的智能阅读教育机器人——Luka[12],内设多元深度推荐算法,在收集、提取家庭成员海量交互数据的基础上进行精准画像和标记,结合图书内容分类收集数据化、标签化预处理信息,实现了优质童书和音频等数字内容的个性化分级阅读推荐;同时借助LingUI关系式交互系统,提供“听、说、读、写、问、测”全链路闭环服务,以神经网络、自然语言处理等AI核心技术为儿童教育和培养阅读习惯赋能。淘云科技股份有限公司与科大讯飞股份有限公司于2019年12月联合推出的AI学习机器人阿尔法蛋大蛋2.0版本[13],在原有功能的基础上增设前置双摄功能,可以精准识别主流版本语文、英语教材与儿童绘本等纸质读物的内容,提供指读、查词、伴读服务,做孩子阅读的伙伴,培养其自主学习和阅读的好习惯。
四、结语
随着技术的发展及与出版业融合程度的加深,出版人工智能在推动出版业内容生产、知识服务和文化体验等方面发挥了日益重要的作用,但随之而来的负面影响也不容忽视。如由出版流程智能化发展所引发的出版从业者的工作不适和内心焦虑,人工智能生成内容与用户深层次、个性化需求匹配问题,人工智能环境下用户信息、隐私等方面的保护问题,等等。未来,我国出版业的智能化发展需要进一步贯彻新发展理念,以价值为引领,以内容为中心,推动出版业高质量发展。
|参考文献|
[1] 罗学科,黄莹. 出版人工智能:概念内涵、价值指向与实践路径[J]. 中国出版,2021(2):3-7.
[2] 任翔. 重构内容产业:2020年欧美科技图书出版发展与创新评述[J]. 科技与出版,2021(3): 6-12.
[3] 首本AI生成的研究摘要类书籍诞生[EB/OL].(2019-04-11)[2022-04-12]. https://chuangxin.chinadaily.com.cn/a/201904/11/WS5cafefd9a310e7f8b157620c. html.
[4] The Saint: An interview with the co-founder of Iris. AI—the world's first Artificial Intelligence science assistant[EB/OL](2019-04-11)[2022-03-26]. http://www.thesaint-online.com/2018/06/an-interview-
with-the-developer-of-iris-ai-the-worlds-first-ar--tificial-intelligence-science-assistant/.
[5] 肖超. 英国大学出版社数字学术出版转型探析[J]. 出版科学,2019(1):99-105.
[6] 范军,陈川. 人工智能在欧美学术出版领域的应用及其启示[J]. 河南大学学报(社会科学版),2020(1):144-149.
[7] 廖声武,谈海亮. 走向计算主义:数据化与网络文学业态的裂变. 湖北大学学报,2020(4):71-78.
[8] 刘一鸣,高玥. 人工智能语音在有声读物中的应用研究[J]. 出版发行研究,2019(11):35-39.
[9] 刘超,唐学贵. 智能出版:出版内部流程的智能再造[J]. 出版广角,2021(13):26-28.
[10] 孔畅. 人工智能技术的发展对出版流程链的影响[J]. 技術与市场,2020(11):42-43.
[11] 陈进才. 人工智能时代出版流程再造的机遇与挑战[J]. 现代出版,2020(2):89-91.
[12]亲子互动、早教的阅读机器人,陪伴儿童的学习阅读机、教育机:Luka系列绘本阅读机器人[EB/OL]. (2020-04-10)[2022-04-12]. https://www. meipian.cn/2v78li7h.
[13]阿尔法蛋机器人[EB/OL]. (2019-12-07)[2022-04-12]. http://www.toycloud.com/contents/54/750.html.78709D71-B1AF-434B-87A9-F4A4D72D24AA