人工智能大语言模型对数字出版的影响及挑战
2023-08-04孙玉发郭锐
孙玉发 郭锐
人工智能技术的发展,特别是以ChatGPT为代表的大语言模型(Large Language Model),对各个领域的工作方式和研究范式都形成冲击。[1]在所有这些领域中,数字出版业受到的影响可谓首当其冲,因为大语言模型较之以往的技术表现在更强的“创作”能力上。在这样的背景下,本文将分析人工智能大语言模型对数字出版的影响,以及其引发的伦理和法律挑战。
人工智能大语言模型对数字出版的影响
人工智能大语言模型对数字出版的影响是全方位的,包括选题策划、内容生产、编辑加工、出版发行等出版涉及的各个方面,其生产力工具的属性非常明显:它可以为选题策划提供创意灵感,加速选题策划的过程;它可以自动生成文本内容,加速创作过程;它可以辅助编辑工作,纠正错误并提升内容质量;它可以强化个性化内容供给,根据读者偏好提供定制化推荐;它可以改变数字出版平台,提供智能推荐和优化用户界面。
在数字出版选题策划方面,人工智能大语言模型可以通过分析海量的文本数据,洞察读者的兴趣和市场趋势。了解读者的需求和市场趋势,选择那些更受欢迎和有潜力的选题,加快选题策划的速度和提高效率 [2,3]。在生成新的、有内在逻辑和连贯性的文本方面,人工智能大语言模型具备强大的创作能力,可以自动创建新闻文章、博客帖子、小说[4],甚至是学术论文等各种类型的内容,为作者提供创意灵感。此外,人工智能大语言模型在多语种翻译方面也展示了取代人类翻译的潜力 [5]。在编辑校对方面,人工智能大语言模型能够自动检测和修正文本中的语法和拼写错误,从而提高编辑和校对的效率。通过较强的自然语言处理能力,它还可以帮助评估和修正文本的语义连贯性、风格一致性和逻辑结构等更深层次的问题[6]。在市场营销和方案策划方面,人工智能大语言模型可以在数字产品销售数据分析、销售方案等方面发挥关键作用,优化内容、策略和效果,包括理解和预测读者兴趣,预测市场趋势和竞争对手策略。
人工智能大语言模型也为数字出版提供了全新的互动式阅读体验的可能性。借助人工智能大语言模型,读者可以在阅读过程中与文本进行互动,从而创造出更加丰富、深入并且个性化的阅读体验[7]。
人工智能大语言模型带来伦理和法律挑战
也恰是因为人工智能大语言模型的革命性影响,它所带来的伦理和法律挑战也将日益显著。其中,个人信息保护(数据隐私)问题、人工智能生成内容的质量和版权问题将是其中主要的问题。
随着人工智能大语言模型在数字出版中的广泛应用,个人信息保护成为一个重要的伦理和法律问题。这些模型通常需要大量的数据进行训练和运行,这些数据可能包括读者的个人信息、阅读历史、搜索记录、社交媒体活动等,如果没有得到适当的处理和保护,可能会导致个人信息的泄露和滥用[8,9]。
无论是训练基础模型还是对已有模型进行微调,人工智能大语言模型都依赖已有的文本。使用已有文本训练大语言模型涉及是否符合合理使用等法律问题,这本身就有侵犯版权的风险;在数字出版中应用大语言模型,其生成的文本可能包含其他人的原创作品,存在侵犯版权的风险。尽管现有技术已经通过添加引用或注释来标注来源,但这是否满足版权法的要求,仍没有定论。
人工智能大语言模型生成内容的质量问题,在数字出版中引发的问题非常突出。在模型训练文本不够的情况下,它可能产生低质量或错误的内容,导致读者接收到误导性、混淆或伪科学信息。此外,人工智能大语言模型生成的内容可能受存在偏见和歧视内容的训练数据影响,导致性别、种族、政治、残障等方面的歧视问题出现。
上述数字出版业应用人工智能大语言模型时出现的伦理和法律问题,根本上是人类社会在应用人工智能中所遭遇创造秩序危机的体现。创造秩序危机,简而言之,是人类遭遇的被自己所创造的技术反噬的后果。[10]具体到人工智能大语言模型引发的问题上,它表现为人工智能生成内容成为默认的工作方式,并被当作价值无涉的工具。创造秩序危机源于两大难题:因果联系难题和终极准则难题。因果联系难题来自人工智能被委以对人类事务做决策的能力,但它对决策结果的伦理判断能力不足;终极准则难题来自由于缺乏引导人工智能发挥作用的终极道德准则,人工智能难以在互相冲突的决策之间权衡。無论是在个人信息保护(数据隐私)还是人工智能生成内容的版权问题、生成内容的偏见和歧视问题,都是终极准则难题的体现,而立法与政策要决定的是否干预、如何干预的问题,则是因果联系难题的体现。
人工智能大语言模型在数字出版领域具有巨大的潜力。未来,我们可以期待人工智能大语言模型为读者提供更加智能化、个性化和创新的数字出版内容和服务,带来更丰富、高质量的阅读体验。然而,人工智能大语言模型也引发了一系列伦理和法律问题。我们需要反思这些问题中所体现的创造秩序危机,这意味着对技术进行价值校准以及了解这种校准本身的局限性。解决这些问题,需要数字出版从业者建立伦理共识、在行业生态中推动问题的预防和解决。这取决于人工智能大语言模型的设计者、数字出版业者、用户之间的一系列复杂的互动,其中共同的价值目标是至关重要的。从创造秩序危机的分析出发来分析,我们看到价值校准应当作为一个长期持续的过程,以便算法与人的决策保持一致。在这个意义上,我们也期待立法者和政策制定者能够尊重行业规律,着眼长远,推动版权法规、管制政策的良性发展。
参考文献:
[1]杨倩,林鹤.大语言模型背景下情报研究的数字化应对策略及实践场景[J].竞争情报,2023,19(03):2-13.
[2]王元.人工智能与图书出版融合发展研究[J].中国传媒科技,2022(01):57-59.
[3]郑柳洁.人工智能类图书选题策划思路分析[J].新闻研究导刊,2022(01):205-208.
[4]武菲菲.人工智能技术与出版行业的融合应用[J].出版广角,角,2018(01):26-28.
[5]耿芳,胡健.人工智能辅助译后编辑新方向:基于ChatGPT的翻译实例研究[J].中国外语,2023,20(03):41-47.
[6]范军,陈川.AI出版:新一代人工智能在出版行业的融合创新[J].中国编辑,2019(05):64-71.
[7]王羽佳.AI与出版融合视角下图书选题策划与内容生产的优化路径[J].出版科学,2023,31(01):44-49.
[8]殷轶平. 基于知识蒸馏的训练数据隐私保护方法研究[D].哈尔滨:哈尔滨工业大学,2021.
[9]汤凤仪 , 刘建 , 王会梅,等.保护数据隐私的深度学习训练数据生成方案[J].计算机应用研究,2021,38(07):2009-2012.
[10] 郭锐.人工智能的伦理和治理[M].北京:法律出版社,2020.
作者单位:孙玉发,石油工业出版社有限公司数字出版中心技术研发部主任;郭锐,中国人民大学未来法治研究院研究员