APP下载

基于人工智能的小说自编辑平台

2021-10-27徐丽芳何倩

出版参考 2021年9期
关键词:数字出版畅销书人工智能

徐丽芳 何倩

摘 要:人工智能在自然語言理解和生成上不断取得突破,在出版领域的应用也随之逐渐深入。基于这些人工智能技术的Authors A.I.能够自动阅读和评价小说作品,甚至提出改进意见,因此实际上可视为作者的自编辑平台,或者出版企业的编辑辅助平台。本文介绍其从一本书到一家公司的创立过程,以及支撑该平台运行的自然语言和技术原理;阐述了其所提供的AI分析报告,特别是叙事原型和情节转折、叙事节拍和叙事进程、主要人物性格和主题分析以及情绪色轮等要素的可视化分析;最后指出人工智能的发展为出版业提供了很好的机遇,基于AI,出版价值链有望在各方面得到改进。

关键词:人工智能 Authors A.I. 畅销书 数字出版 自编辑

人工智能正在颠覆金融、医疗、交通等各个行业,出版业也不例外:市场营销部门可以使用新工具来为更广泛的受众制作个性化广告,编辑部门可以通过大数据和智能分析辅助选题策划和校对工作,机器自动化写作在新闻领域也已经实践多年。小说创作似乎最不可能受到人工智能的影响,毕竟它具有复杂的叙事线和情感表现,似乎难以量化成计算机可处理的数据。迄今为止,虽然已有许多用人工智能创作小说的实验,但几乎都以失败告终,因为人工智能生成的文本仍存在许多不合逻辑的内容,或文本虽符合逻辑却缺乏可读性和内在意义。科技初创公司智能作家(Authors A.I.)于是转变视角,不再执着于利用人工智能生成文本,而是将人工智能的洞察力与人类的创造力结合起来,利用畅销书数据对小说书稿内容进行分析并给出建议,以帮助作家写出能登上畅销书排行榜的书。

一、Authors A.I.概况

2016年,美国圣马丁出版社(St. Martin Press)出版了《畅销书密码:大热门小说解剖学》(The Bestseller Code:Anatomy of the Blockbuster Novel)一书。该书作者乔迪·阿彻(Jodie Archer)和马修·L.约克斯(Matthew L. Jockers)耗时五年用文本挖掘算法对2万多部《纽约时报》畅销小说进行数据分析,试图揭示出畅销书在内容上的共同特征。[1]两位作者在斯坦福大学相识,分别拥有出版行业背景和数字人文学术背景。他们在四年的时间里构建并完善了算法,声称其能以80%的准确率推断出一份没有标记的手稿是否登上了《纽约时报》畅销书排行榜。[2]

作为将机器学习原理和文本挖掘技术应用于长篇小说分析的世界领先的专家之一,约克斯并不是用人工智能算法去自动生成小说,而是将其作为分析人类创作的小说作品的有力工具。2019年6月,他和作家约瑟夫·丹尼尔·拉西卡(Joseph Daniel Lasica)开始致力于为图书爱好者创建新的社交中心,并为小说家们提供一套新工具。Authors A.I.公司由此成立。拉西卡是惊悚小说作家,同时也是新闻工作者。他对约克斯与乔迪·阿彻合著的《畅销书密码》非常感兴趣;而约克斯希望与一群才华横溢的作家合作,对其人工智能算法进行实测和改进。两人一拍即合。随后,畅销言情小说家亚历山德拉·托雷(Alessandra Torre)作为第三位创始人加入。在短短几个月内,Authors A.I.组建了一个由120多位畅销书作者和专家顾问组成的团队来改进和扩展约克斯的原始算法。同时,他们不再只专注于《纽约时报》畅销书排行榜,而是在各种流行小说排行榜中广泛地寻找成功案例,不断优化算法以使其适于分析流行小说市场[3]。

2020年1月,Authors A.I.公司用其小说分析算法创造出名为Marlowe的小说智能机器人,并进入封闭测试阶段。6月,Authors A.I.正式推出官方网站authors.ai;Marlowe 1.0正式发布。Marlowe是一个集读者测试、策划编辑和文字编辑等功能和角色于一身的精通小说艺术和技巧的智能机器人,可以在15分钟内阅读一本小说,并对其做出评价。评价工作主要基于该小说与数据库中数万本畅销小说的比较。评价内容包括主题分析、叙事原型与情节结构分析、高低潮分析、主要人物性格特征、潜在冒犯性语言、句子统计和可读性分数、对话和叙述比率、动词选择和被动语态使用、可能的拼写错误、标点数据等。作者可以根据Marlowe给出的分析报告对作品进行修改,在送呈专业编辑审查之前完善自己的手稿。次年6月,Authors A.I.发布Marlowe 2.0。这次升级增加了一些新功能,可将手稿与4本具有相似情节线索或写作风格的畅销书进行比较,从而给作者提供更加精准的写作建议。除此之外,还增加了故事节奏、情感色彩和语言使用频率分析等功能。[4]

Authors A.I.目前提供3个版本的产品和服务,分别为基础版、会员版和一次性支付版。基础版为免费服务,用户不需要支付费用就可以无限制地获得基础分析报告。该报告内容比较简单,主要为单词和短语重复性识别、语法分析等。会员版又分为2类:按月订购为每月29.95美元,按年订购为每年199美元。会员用户每个月可以获取2份会员版分析报告,以及无限制地获得基础分析报告。此外,用户也可以选择在不加入会员的情况下购买一次性报告,价格为每份89美元。会员版分析报告和一次性报告比基础版报告多9项内容,包括主题、情节、人物性格等作品分析的核心内容。Authors A.I.还为会员作者提供额外的社区服务,包括加入作者脸书群组、参加网络研讨会和特别活动、获得BingeBooks网站的营销机会等。BingeBooks是Authors A. I.旗下一个由作者和书籍爱好者创建的在线社区。它推荐各种类型的书籍,旨在为用户提供发现新书和新作者的渠道。除了为个体用户服务,Authors A.I.还为出版机构提供行业通行证。有了行业通行证,出版商、编辑、学术机构和教育机构每季度可以生成多达25份AI分析报告。

二、工作原理:从文本到模式

人工智能(Artificial Intelligence, AI)是一个宽泛的术语,涵盖了多种技术。这些技术使计算机能够感知、理解、行动和学习。目前,人工智能在出版业的所有应用都涉及机器学习(Machine Learning,ML)或深度学习(Deep Learning,DL)——要么单独使用,要么与自然语言处理(Natural Language Processing, NLP)、文本数据挖掘(Text Data Mining,TDM)、语音识别或计算机视觉等其他技术结合使用。Marlowe的技术基础为自然语言处理和深度学习,两者在相关过程中是相互依赖、相互渗透的。

自然语言处理包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,ULG)两部分。Marlowe比较侧重NLU功能。其实质是对人类阅读的模仿。机器无法像人类一样理解所阅读内容的意义,只能将人类认为有意义的单位——字母、单词、句子、标点符号和章节当成二进制符号输入计算机。自然语言处理中最基本的任务是分词、句子识别、词性标注(Part-Of-Speech tagging,POS tagging)和依存句法分析(Dependency Syntactic Parsing)。分词和句子识别看似简单,但其实有许多困难的情况需要解决,如英文缩略语会用到下脚点,而机器可能会把这个标点当作句号;一些英文复合名词有时会由空格隔开,机器可能把它当成两个词;而中文词汇不像英文单词由空格隔开,机器分词也就更为复杂。在分词和句子识别完成后,就可以计算每个词出现的频率、平均句子长度以及对话句与纯叙述句的比例。词性标注是分词的下一步,其中名词识别是小说主题识别算法建模的前提条件。完成部分词性标记后,就可以总结不同作者使用的名词、动词和形容词的类型及频率,确定特定作者写作的典型模式。由于人类语言的复杂性,很难编写一个程序处理所有情况,因此许多自然语言处理和文本挖掘研究工作已经从基于语法规则的句法分析转向基于统计推理的方法。这种方法不再编写一大堆规则去处理所有可能的语言书写方式,而是从统计学视角让机器学习不同句子结构和单词组合出现的概率。[5]依存句法分析被用来识别句子中词汇与词汇之间的相互依存关系,找出哪些单词一起构成短语,哪些单词构成句子中的主语、宾语和动词,然后通过角色的动作可以分析其性格特征。文本情感分析(Text Sentiment Analysis)目前在商业领域应用广泛,在Marlowe中则被用来绘制故事的情节线索。机器会识别每个句子的情感倾向,而肯定句或否定句的出现频率可以揭示主人公的命运以及情节走向。自然语言处理完成文本的初步处理,为下一步深度学习提供基础数据。

对于Marlowe来说,深度学习就是对输入计算机的成千上万本畅销书内容进行分析,发现和提取关于每本书的详细信息及特征,识别这些故事的相似之处,总结其写作模式,包括主题、故事节奏、情感起伏、角色特征和故事结构等,以及一些语言统计数据。该过程在机器学习领域被称为模式识别(Pattern Recognition)。它指“基于已经获得的知识或从模式和它们的表示中提取的统计信息对数据进行分类”[6],核心是计算机算法理解所“看”到的东西,对事物进行分组,并最终识别出模式。对Marlowe而言,就是筛选在文本挖掘阶段挖掘出的特征,确定哪些特征会影响一本书成为畅销书。识别过程需要经过反复多次训练,也就是机器学习的过程;输入数据越多,训练时间越长,Marlowe的信息识别和处理能力就越强。当用户上传作品后,Marlowe会提取该书的文本特征,并与数据库中的畅销书特征数据进行比对,通过比对结果给出详细的图表分析,并根据分析数据给出相应的修改建议,然后将完整报告通过电子邮件发送给作者。

三、AI报告:小说特征可视化

Authors A.I.提供的最终产品为一份人工智能分析报告。Marlowe要求作者提交的手稿长度不少于2万字,且文件格式要求为MS Word(.doc,.docx)或纯文本(.txt)。最后生成的报告是可视化的,每个特征对比都以图表形式展现。下面以其官网提供的案例《达·芬奇密码》(The Da Vinci Code)为例,介绍报告的主要内容。[7]

(一)叙事原型和情节转折

叙事原型的概念最早由德国学者古斯塔夫·弗赖塔格(Gustav Freytag)于19世纪提出,其提出的金字塔叙事原型包括开场(Exposition)、上升(Rising action)、高潮(Climax)、回落(Falling action)和解决(Resolution)五个部分。[8]Marlowe对语料库中的流行小说内容进行分析后,归纳得出了七种叙事原型。以《达·芬奇密码》为例,智能报告将其叙事脉络进行了可视化处理,并将之与最相似的叙事原型进行对比(见图1)。图中水平虚线表示平稳状态,线条向上表示故事向积极方向发展,线条向下则表示事态恶化。通过对比图,可以清晰地看到该书与名为“紧急情况”(Emergence)的故事原型最为吻合。该故事原型通常遵循从消极开端到积极结果的路径。[9]叙事原型从宏观角度进行对比,情节转折则涉及更多细节。情节转折的可视化报告也包含与最接近的一本畅销书进行的对比(见图2)。与《达·芬奇密码》情节转折最相似的是托马斯·麦圭恩(Thomas McGuane)的《阴暗处的九十二》(Ninety-Two in the Shade)。

(二)叙事节拍和叙事进程

在戏剧创作中,故事通常可分为五个结构层次:节拍(Beat)、场景(Scene)、序列(Sequence)、幕(Act)和故事(Story)。叙事节拍是故事的最小单元,指角色动作与其引起的反应之间的行为交流瞬间。这些瞬间往往伴随场景中的情绪或关系变化,使故事发生转折。[10]《畅销书密码》指出:畅销书大都具备稳定的叙事节奏,故事转折点之间的间隔通常是均匀的。[11]《达·芬奇密码》叙事转折点之间的篇幅间隔约为10%,其中,向下转折意味着冲突的发生,向上转折表示冲突得以解决(见图3)。此外,报告还提供了敘事进程图(见图4)。它模拟读者跟随作者叙事时的阅读体验:高峰区代表叙事推进快、读者紧紧跟随,低谷区代表叙事节奏慢,读者翻页也随之慢下来。良好的叙事节奏可以持续吸引读者阅读,持续的快节奏或慢节奏叙事则都会引起读者的疲劳。从图4可以看出,《达·芬奇密码》的叙事进程快慢有致、起伏均匀。这样的节奏显然更符合大多数读者的阅读偏好。

(三)主要人物性格、主题分析和情绪色轮

性格分析由Marlowe基于人物动作和行为得出。Marlowe分析了《达·芬奇密码》中兰登(Langdon)、赛拉斯(Silas)、索菲(Sophie)和提宾(Teabing)四个主要人物的主要性格特征,包括“招人喜欢”“自信”“快乐”“勤奋”“思维敏捷”“现实”“被动”“敏感”等指标。主题分析图则列出小说十个重要主题及各自所占百分比,同时标注语料库中所收录畅销书使用这些主题的数量。《达·芬奇密码》的重要主题依次为宗教、艺术、恐怖主义和梦想等,它们在该书所有主题中约占30%。心理学家罗伯特·普鲁契克(Robert Plutchik)曾提出情绪之轮(Wheel of Emotions)模型,其中包含八种基本情绪:愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶和信任。就像颜色一样,原始情绪可以用不同的强度表达,并可以相互混合形成新的情绪,如期待和喜悦结合起来就是乐观。[12]Marlowe据此提供了八种主要情绪的分布评估。在《达·芬奇密码》中,主要传达的情绪是喜悦、信任、恐惧和惊讶。此外,报告还包括对话和叙事比例、冒犯性语言和不良内容数量、陈词滥调、重复性短语、句子统计和可读性得分、词性统计、标点符号统计等内容,以及主题和语言风格与此书相似的四本书的对比。

四、智能编辑:人工智能改变出版业

目前人工智能已被广泛用于整个出版产业链,渗入内容获取、内容生产、产品营销、客户服务等诸环节。常见的应用领域如内容识别和文本标记,机器可以自动生成任意长度的元数据标签来标记书籍及其简介。这些标签与推荐引擎一起可以提高内容的可发现性。同时还包括使用人工智能识别市场趋势、辅助翻译和支持推荐平台等。国际电子书和有声读物分销平台书线(Bookwire)使用人工智能工具分析出版物在各个历史数据点的价格,并追踪每本圖书的销售表现,然后可在任何给定时间提出有关定价的建议。它还根据标题相似性和用户偏好自动将推荐广告集成到电子书中。该技术推动了Bookwire销售额的显著提升。[13]众所周知,将已出版作品翻译成不同语言可以扩大作品的受众范围。目前许多翻译服务提供商开始向细分行业提供服务,比如劳雷特(Laoret)就采用机器和人工相结合的方式为传媒、出版和娱乐行业提供翻译服务。人工智能图书营销平台博克斯比(Booxby)等则应用自然语言处理和机器学习技术解析作者的独特风格,然后预测读者对该风格的体验,从而帮助作者和出版商有效地定位书籍,实现精准营销。

人工智能在编辑环节的早期应用主要为语言检查和剽窃检查。自动文本分析可以检测出剽窃段落和句子,减少版权纠纷,还可用于监控第三方出版平台上的版权侵权行为,维护出版商和作者利益。在Authors A.I.之前,一款名为“Grammarly”的人工智能写作助手程序允许用户检测并修正英文拼写、语法和标点符号错误,并于2019年发布了语气检测和修正功能,允许用户根据文本的使用情境来调整文字的语气。相比之下,Authors A.I.更具有针对性,因为它只专注于小说特别是长篇小说的分析,而且分析内容也更加深入。它不再只提供语法和拼写的校对检查功能,而开始涉及作品主题、情节和人物分析。在此之前,这些工作都是人类编辑的职责。Authors A.I.拓展了人工智能在编辑环节的作用范围,使其开始涉足编辑的核心工作。它不仅可以帮助编辑减少校对工作量,提升总体错误检测准确率,还能将作者手稿特征与畅销书特征进行比较,以找出可以改进的地方,并预测小说的畅销潜力,帮助编辑专注于最具市场价值的内容。

五、小结与讨论

人工智能编写非小说类书籍、博客文章和新闻文章已经成为现实,甚至可以编写代码模仿J.K.罗琳的风格自动生成内容,但目前并没有产生一部由人工智能创作的优秀小说作品。[14]因此,Authors A.I.拓展了AI技术的应用方式和范围。它不是直接根据数据计算写出一本畅销书,而是将人工智能从作者的对手转变为助手,以使作者更好地了解读者、市场和竞争对手,帮助其写出更符合市场需求的作品,并拉近与读者的距离。这种模式似乎是一种双赢的方案:既保留了作者的创作主体地位,同时发挥了人工智能的优势,可以增强而不是取代人类智能。

但是,Authors A.I.挖掘的畅销书模式可能会进一步导致畅销文学作品的同质化和套路化,消解或阻碍作者的创造力以及作品的创新性。其实,畅销文学作品本来就没有一般人想象的那样天马行空。此前已有许多人提出有关故事结构或模式的观点。克里斯托弗·布克(Christopher Booker)在《七个基本情节:我们为什么讲故事》(The Seven Basic Plots: Why We Tell Stories)中提出从古代神话到戏剧小说再到流行影视剧,各种故事都可被归纳在七种原型中。[15]美国著名作家库尔特·冯内古特(Kurt Vonnegut)认为故事具有普遍形式,除了少数例外,经典文学和现代文学故事可以归纳为少数几个原型。这些原型可以简单地用坐标图来表示,横轴表示叙事时间,从故事开始到结束;纵轴表示故事的起伏波折,随着情节推进,故事线索通常会经历危机、复杂情况、戏剧性转折和解决方案等过程。[16]计算机是模式识别专家,可以在人类无法顾及的尺度和粒度级别上研究模式,甚至比最老练的文学评论家更接近小说细节。因此,Authors A.I.对冯内古特提出的故事原型理论进行了扩展应用,除了情节结构和情感节奏,还对故事主题、人物性格特征和叙事节奏等进行分析。

Authors A.I.是人工智能在辅助小说写作和编辑应用上迈出的重要一步。它利用算法为人类作者提供改进小说创作的建议。显然,把人工智能当作人类助手而不是人类对手在现阶段更为现实。但从Authors A.I.目前提供的分析报告来看,其呈现结果仍较为有限,图表内容不够详细,分析的准确性有待提升。如叙事原型和情节转折等都只有一个大概趋势,并没有精细到具体章节;与四本畅销书的对比数据也只是通过雷达图简单呈现;提供的修改建议仍较为宽泛,缺乏针对性;只有一个人物的名字出现得足够频繁,Marlowe才能够识别该人物并根据其行为判断其性格特征,而且它无法判断人称代词所指,因此人物性格判断准确性还有待提高;总结归纳的主题存在交叉和重叠等。但无论对于作家还是编辑,这都是有益的尝试。技术总是不断向前发展的,随着人工智能领域研究的不断进展,Marlowe在未来或许可以变得更加有效。

参考文献:

[1]陈铭,徐丽芳.Archer Jockers:用机器算法解密畅销小说基因[J].出版参考,2019(03):12-15.

[2]Tolentino J.“The Bestseller Code” Tells Us What We Already Know[EB/OL].(2016-09-23). https://www.newyorker.com/books/page-turner/the-bestseller-code-tells-us-what-we-already-know.

[3]Authors A.I.About Authors A.I.[EB/OL]. [2021-07-12].https://authors.ai/about/.

[4]Authors A.I.Writing Analysis Platform Authors AI Releases Major New Features[EB/OL].[2021-06-07]. https://authors.ai/writing-analysis-platform-authors-ai-releases-major-new-features/.

[5][11]Archer J.,Jockers M. L.The Bestseller Code:Anatomy of the Blockbuster Novel[M].New York:St.Martin's Press,2016:177-194,77-9.

[6]Murty M. N., Devi V. S.Pattern Recognition:An Algorithmic Approach[M].London:Springer London, 2011:1-6.

[7]Marlowe. Marlowe analyzes The Da Vinci Code [EB/OL].[2021-07-12].https://authors.ai/.

[8]Boyd R. L., Blackburn K. G., Pennebaker J. W.The Narrative Arc:Revealing Core Narrative Structures Through text Analysis[J].Science Advances,2020,6(32):a2196.

[9]Lasica J. D. Examples of Narrative Arcs in Modern Fiction[EB/OL].[2021-02-22].https://authors.ai/examples-of-narrative-arcs-in-modern-fiction/.

[10]Beemgee.Story Structure and Plot Beats[EB/OL].[2021-07-31].https://www.beemgee.com/blog/story-structure-plot-beats/.

[12]Six Seconds. Plutchik's Wheel of Emotions: Exploring the Emotion Wheel[EB/OL].[2021-07-31]. https://www.6seconds.org/2020/08/11/plutchik-wheel-emotions/.

[13]Team WNiP.“The Impact Will Be Immense”:How AI Is Reshaping the Publishing Industry[EB/OL].(2019-11-07).https://medium.com/whats-new-in-publishing/the-impact-will-be-immense-how-ai-is-reshaping-the-publishing-industry-16dea969c299.

[14]Rutkowska A.How AI Is Disrupting The Publishing Industry[EB/OL].(2020-10-20).https://www.forbes.com/sites/forbesbusinesscouncil/2020/10/20/how-ai-is-disrupting-the-publishing-industry/?sh=48cef68f5237.

[15]Booker C.The Seven Basic Plots:Why We Tell Stories[M].New York:Bloomsbury Continuum,2019:1-13.

[16]Lasica J. D. Do Stories Have a Universal Shape? [EB/OL].[2021-02-02].https://www.janefriedman.com/do-stories-have-a-universal-shape/.

(作者單位系武汉大学数字出版研究所;武汉大学信息管理学院)

猜你喜欢

数字出版畅销书人工智能
24小时完成的畅销书
人工智能与就业
数读人工智能
学术期刊数字出版的运行模式与市场结构
浅谈新媒体在美术类图书出版中的应用
做一个全民阅读时代的“悦”读人
国际图书出版市场现状及趋势分析
畅销书架
畅销书架
畅销书为何畅销