APP下载

NLP 发展对出版行业发展影响
——以图书出版行业各编辑岗位工作为例

2023-12-11赵晓晨

中国传媒科技 2023年11期

赵晓晨

(机械工业出版社有限公司,北京 100000)

1.NLP 的迅猛发展带来人机交互变革

1.1 NLP 发展现状及趋势

NLP 是人工智能的一个分支,它涉及计算机对人类语言的理解和生成。近年来,NLP 技术取得了长足的进展,且有很多发展趋势。目前,NLP技术已经从“听”和“看”发展到“说”和“写”,基本具备和人交流的能力。

深度学习:深度学习技术,特别是语言模型,在NLP 领域中取得了很多成功,可以解决多种NLP 问题,如语音识别、机器翻译等。

语言生成:语言生成技术正在快速发展,并取得了很多进展。例如,机器生成文本(GPT)技术已经可以生成高质量的文本内容。

多语言处理:NLP 技术正在向多语言领域扩展,以支持更多语言和文化。

智能客服:NLP 技术正在被广泛应用于智能客服,以提供快速、高效的客户服务。

语音识别:语音识别技术正在快速发展,并逐渐普及,可以更方便地访问信息和服务。

NLP 技术在过去几十年里取得了长足的发展,并且在近年来迎来了爆炸式增长。

一方面,NLP 算法在语言理解方面取得了显著的进展,例如,在文本分类、情感分析、语义消歧等方面表现出了很高的准确性。此外,NLP 还在语言生成方面取得了很大的进展,例如自动文本生成、对话生成等。

另一方面,大数据和人工智能的快速发展也加速了NLP 的发展。例如,深度学习技术的出现使得NLP 模型的语言表示能力大大提高,从而提高了NLP 模型的语言理解能力。同时,云计算和大规模数据处理技术的发展也为NLP 提供了更多的计算资源和数据支持。

总的来说,NLP 技术正在快速发展,并且在各个应用领域,如聊天机器人、文本摘要、情感分析等都有着广泛的应用。预计未来NLP 技术将继续取得更多的突破,并在更多领域产生更大的影响,为人们带来更好的体验和服务。

1.2 GPT 技术实现自然语言文本生成

GPT(Generative Pretrained Transformer)是一种自然语言生成模型,是目前在自然语言处理(NLP)领域中最先进的技术之一。

GPT 的发展方向主要有以下几点:

更大的模型:随着计算资源的不断提升,GPT 模型的尺寸也在不断扩大,更大的模型通常意味着更好的性能。

多任务学习:GPT 可以在多个 NLP 任务上训练,这将有助于提高 GPT 的通用性和灵活性。

增强学习:GPT 可以通过强化学习策略来改进其行为,从而提高 GPT 在复杂任务中的性能。

深度生成对话:GPT 在生成对话方面具有很高的潜力,与人工智能代理等技术结合将有助于实现更自然、更高效的人机对话体验。

多语言支持:GPT 可以扩展到多种语言,从而支持全球范围内的 NLP 任务。

2.NLP 发展对图书出版行业各编辑岗位工作的影响

虽然编辑岗位是按照出版流程设定,且从内容上来看环环相扣,但从实际业务操作来看,却容易出现重叠和断档。

首先,由于目前供职于我国传统出版社的策划编辑大多从加工编辑转化而来,或者同时兼任加工编辑,所以策划编辑的工作思路不能摆脱加工编辑工作思路的限制。这就造成策划编辑在策划选题时,会把稿件的加工难度设置为重点考量的项目之一,直接影响策划编辑对选题的判断,如图1。很多符合市场需求且时效性很好的作品因为文字加工难度较大——其中不仅包括语言的流畅性、文学性不高等文字难度,同时也存在专业性较强、观点较新、对加工编辑水平要求较高等问题而被放弃。

图1 目前图书出版各岗位现状

其次,营销编辑虽然是顺应市场发展需求的不可或缺的岗位,但在曾经“发行”工作的影响下,很多由“发行”转化而来的营销编辑并不能深度参与出版工作。究其原因还是工作思路的限制。营销工作是“等”图书印刷完成之后才开始的。与生产环节产生的时间差,让营销工作总有一种“游离”在出版工作之外的感觉,这也是很多营销编辑在工作中的实际感受——拿到样书或入库信息才和产品第一次见面。即便是有重点选题提前与营销编辑进行了沟通,让营销工作可以稍微前置,也仅限于预售、新书预告等举措,因为书未出版,一切都是未知,营销编辑无法掌握前期生产环节的任何一个节点。

策划编辑的“想太多”和营销编辑的“知道太晚”使出版效率大打折扣。要想破除这些“重叠”和“断档”需要对出版流程革新,重新梳理业务逻辑和分工。

NLP 的发展特别是GPT 技术的发展将对以文字为主要生产对象的出版工作产生重大影响,甚至变革。

2.1 提高策划效率

经过多年的转型和出版行业市场化改革的深入,策划编辑在出版行业中的作用越来越重要。一名好的策划编辑不仅需要拥有对市场的敏感性,更需要有好的作者资源,拥有把好的选题转化成产品的能力。除此之外,时效性也是其成功的关键。

由于某一个部门或某一个自然人对信息搜集、处理的能力、精力有限,因此,决策风险相对较大。加之目前出版行业运用大数据技术对数据进行处理、分析的能力不足,导致决策过于主观,容易忽视可行性。好的选题可能因为作者资源不足等种种原因错过出版时机,甚至失去出版机会,甚至有一些选题受制于自身的能力或风格,未能达到策划编辑的要求而浪费选题资源。

NLP 技术的发展正在逐步解决上述问题。由于NLP 的本质还是大数据及算法,在学习样本充足,逻辑逐步完善的前提下,根据要求“创作”已经可以实现。ChatGPT 即典型应用。

除可以满足策划编辑提出的内容、风格需求外,时效性也是其绝对优势。直接避免了因作者因素形成的创作风险,让整个创作过程变得可控。基于NLP 技术的特点,其可以对文本进行分析,了解读者对内容的偏好和兴趣,从而提高内容的受欢迎程度。

策划编辑在选题策划阶段不需要过于担心作者资源和创作风险问题,而是应转变思维,对选题进行深入剖析,将工作重心转移到如何更好呈现选题上。在人机交互上形成默契。目前已有BuzzFeed 和《运动画刊》(Sports Illustrated)出版商在内的媒体公司已经宣布,计划用ChatGPT 生成趣味问答和文章等内容。

2.2 文字加工工作量降低,加工编辑面临转型

长久以来,文字加工工作一直是图书出版工作的核心,不仅体现在流程、时间上,更体现在质量审查比重上。从形式到内容,都是出版流程中的重中之重。目前加工编辑工作除一些叙事逻辑之外,大部分工作是对是非正误的判断与修改,校对工作的局限性更高。传统的校对软件,如黑马校对、WPS 自带校对插件等在出版社实践中已经被固定在流程中,对保证出版质量发挥了不可或缺的作用,但受技术限制,软件只能成为传统出版流程中一个被增加的节点,不能替代某一工作。

针对语言或文字处理技术精度较差,敏感词识别效果不稳定以及语言发展等问题,随着大样本分析、小样本分析、机器学习等技术的发展,国内已经有研究者提出基于自然语言处理技术的敏感词智能识别方法。以自然语言处理技术为基础,构建处理模型;通过分析提取文字中包含的特征参数,依靠决策树方法,设计敏感词识别算法;通过对文字敏感词的敏感度计算,将敏感词使用特殊字符标注,实现最终识别、标记和修改。

自然语言处理能力的完善将极大提高软件在生产流程中的地位,加工编辑和校对人员的工作强度会被大大减轻,工作重点也会随之发生改变,加工编辑可以从文字中抽离出来,站在更高的角度审视产品,更好地将自己的角色从加工人员转变成产品生产人员。有更多的时间和精力,利用自己的专业优势,与策划编辑沟通从“作品”到“产品”的转化与实现。

技术发展会导致部分社会岗位实现自动化或被合并,也会产生出以前不存在的新岗位。

2.3 营销工作前置且工作量大幅削减

作为出版行业传统意义上的“末端”工作,营销工作长期处于被动局面——图书产品的策划与生产过程几乎没有营销人员的参与。即便是流程相对完善的出版社,在营销编辑拿到新书后第一个动作也是翻看产品资料,迅速了解新书“卖点”“关键词”等,然后根据经验,进行受众细分,制定营销策略。

在前端工作已经由NLP 技术“代劳”后,从作品到产品再到商品,出版工作的每一个关键点都将可控,图书营销工作将有可能前置到产品策划阶段,给营销工作留足时间,并贯穿于出版全流程。

NLP 是人工智能和计算机语言学的交叉领域,可以让计算机更好地理解、生成和分析人类语言。因此,自然语言处理技术在图书营销工作中有着重要的作用。

一方面,NLP 可以帮助图书营销人员更加有效地分析客户的需求和阅读偏好,从而更好地针对客户推荐相应的图书。例如,通过文本分类和情感分析等NLP 技术,可以快速识别出用户对图书类型、题材、作者等的喜好,从而更精准地推荐图书。

另一方面,NLP 还可以帮助图书营销人员提高营销效率,从而节约时间和精力。例如,通过自动文本生成等NLP 技术,帮助图书营销人员快速生成营销文案,而无须手动编写。虽然现在很多营销编辑已经可以使用AI 工具自动生成营销物料,但文本创作仍需耗费大量精力进行撰写。主要症结在于营销编辑对图书内容的不了解和对受众关注点的不确定。但随着NLP 技术的发展,在其进行自然语言学习的同时,也可以根据一定的逻辑对冗长的文字进行提炼与浓缩。并根据需要识别其中关键点,根据自然语言逻辑进行编排,使受众看到我们希望被看到的内容,还可以根据读者阅读历史和喜好,提供个性化的内容推荐。

同时,NLP 也可以帮助图书营销人员识别客户可能存在的疑问,并通过语言生成系统快速生成回答,提高售后效率。

2.4 编辑工作岗位变革的逻辑及意义

此次的技术革新并不是从提高工作效率入手,而是从业务逻辑的彻底改变。信息的收集和处理将会成为出版的重要环节,并且会不止一次地出现。

长久以来,出版的目的都是单一地传播知识、思想、观念或达到一种针对某一细分受众的娱乐目的,方法都是通过大范围的宣传挖掘潜在读者。但随着大数据的发展以及数据处理能力的提高,这一目的将被更有针对性地实现。随之而来的是对市场的敏感性要求的提高,换言之是编辑工作效率的提高。在了解了市场需求后,怎样更高效地触达用户,成为NLP 在出版行业发展的目标。

在形成完整的信息收集—策划—信息二次收集—加工—出版—信息反馈这一完整闭环后,见图2。每一次信息采集都可以自动完成,形成信息看板,并根据未来市场预测情况提出营销或策划建议,甚至是文字内容加工风格的调整。编辑在其中的作用将变成根据出版社或品牌的风格,设计这一系统中的思考权重,并在工作中不断进行调整。

图2 图书出版内部流程

编辑的生产对象也将从一个作品、一本书,演变成一个出版系统。这个系统中至少要包含大语言模型、市场分析模型、社会心理学模型、成本计算模型等。此外,不必担心机器在其中会出现“失控”的情况,进而通过出版这一渠道影响读者的认知,技术将始终是辅助工具,避免编辑成为“人”的短板。这就要求编辑在工作中提高数据模型建立能力,并对数据保持敏感性。

3.图书出版对NLP 技术发展的意义

新技术带来变革,而新技术不是凭空生长的,而是站在现有资源上的新产物。因此变革也应该是螺旋向上的。

我们看到NLP 技术对出版行业的影响,但由于其转换器需要大量的数据,训练分为两个阶段:首先,在通用数据上进行预训练,这种数据更容易大量收集;然后,根据要执行的具体任务,利用定制的数据进行微调。以ChatGPT 为例,其利用一个庞大的在线文本库进行预训练,以学习语言的规则和结构:通过对话记录进行微调,以学习对话的特征。可以说,人类每使用它一次,它就更聪明一些。

基于此,“聪明”的对话将会使它更“聪明”和更快地“聪明”起来。经过几百年的发展,出版行业拥有浩如烟海的优秀作品,这些作品经过作者、编辑、市场的锤炼与检验,成为人类文明的精华,这将为机器学习提供优质“教材”。

经过系统化训练的编辑人员对文字有着天然的敏感性,规范、简明、逻辑清晰的表达方式已经融入其日常语言习惯。在专业书籍方面,虽然人学习、使用新技术的速度可能比不上机器学习,但作为最终受益者,人的感受才是最重要的,提高使用满意度,也是一切技术的终极目标,人的反馈对于机器学习来说至关重要。因此,将语言、文字作为生产对象的编辑人员,将成为NLP 的优质“老师”。

国内已有不少研究室开始针对大语言模型进行研发,以复旦大学的大语言模型为代表的自然语言识别、输出技术已经在金融领域得到应用。拥有海量客户样本及多样化产品的出版业,不仅可以为其提供语言文字方面的支持,更可以在客户画像方面提供准确数据。

出版行业或将在经过与NLP 不断融合并长期共存后彻底转变身份,成为大数据技术中的一环。

4.新技术带来新风险

鉴于目前对个人隐私保护的要求以及版权保护要求,NLP 的样本收集将受到一定限制,通过GPT 的应用场景也将被限制。加之各国、各地区之间的政策、监管差异,如何适应本地规则,并均衡发展,以保证其发挥最大效用,是技术发展与应用的关键。即便如此,再合规的底层技术也会遭受野蛮生长,新应用会不断寻找监管漏洞,对社会、经济,甚至国家安全产生严重危害。因此,作为与之密切相关的出版行业更应发挥自身优势,积极参与应对NLP 带来的新风险,使出版行业与技术共同发展。