基于微调GPT3.5模型的高质量小说生成研究
2024-05-20赵莉珺
赵莉珺
(西藏民族大学信息工程学院,咸阳 712082)
0 引言
小说是文学作品中的一种,是人类文化中重要的组成部分,具有丰富的文化内涵和情感表达。然而,小说的创作过程需要作者投入大量时间和精力,对于需求量极大的文学市场来说,创作大量高质量小说是一项困难的任务。因此,研究如何利用机器生成具有特色的小说具有重要的现实意义。
随着自然语言处理技术的飞速发展,GPT3.5 模型已经在各种自然语言处理任务中取得了显著进展。其大规模的训练使得GPT3.5 能够在给定提示的基础上生成有质量保障的文本[1],但其在生成长篇小说内容方面的能力较为普通。本文旨在通过微调GPT3.5 模型,使得模型提高生成小说方面的能力,使得模型成为一种生成连贯、有创意且保持情节一致性、人物发展和主题元素一致性的小说模型。
1 GPT3.5模型概述
OpenAI 的GPT3.5 模型是基于Transformer 架构的大规模预训练模型,其参数规模达到了1750 亿。通过在大量多样化的数据集上进行训练,GPT3.5 可以理解和生成多种类型的文本,包括文章、对话和新闻等。因此,GPT3.5 模型具有广泛的应用潜力。
在小说文本生成方面,GPT3.5 的一些显著特征与能力包括:
(1)高度的语言生成能力:GPT3.5 可以生成流畅且富有表现力的文本,使得生成的小说内容具有较高的可读性。
(2)上下文理解:GPT3.5 能够理解给定提示中的上下文信息,并根据这些信息生成相关的文本内容。这一特性有助于在生成小说文本时保持情节的连贯性。
(3)风格模仿:由于GPT3.5 在大量不同风格的文本上进行了训练,它可以模仿多种不同的写作风格。这使得在生成小说时可以针对特定的文学风格进行调整。
(4)自动完成和推理:GPT3.5 具有一定程度的自动完成和推理能力,能够在生成小说文本时,自动补全对话、情节和人物关系等方面的内容。
然而,尽管GPT3.5 具有这些优势,但在生成长篇小说时,保持情节一致性、人物发展和主题元素一致性仍然是一个挑战。因此,本文旨在通过微调GPT3.5 模型,进一步优化其在小说文本生成方面的表现。
2 GPT3.5模型的微调
为了提高模型生成小说的质量和多样性,需对模型进行微调。微调是指在一个已训练好的模型基础上,通过在新的数据集上重新训练模型的部分参数来使模型更好地适应新的任务。在OpenAI的研究中指出,使用小于GPT3.5模型1%大小的GPT 模型,结合使用少量标注数据可产生优于GPT3.5 模型的符合人类偏好的模型,微调可以大幅度地提高GPT3.5 模型在特定生成任务下的性能[2]。在该研究中,微调过程可以分为以下几个步骤。
2.1 数据集准备
2.1.1 收集数据
首先选择一些优秀的小说作为微调数据集,涵盖不同的体裁、时代和风格,以确保训练数据的多样性,以便训练模型更好地生成具有特色的小说。
2.1.2 数据预处理
对于OpenAI 的API 中对训练数据的格式要求,需对收集到的数据进行处理,以便构建合适的提示,引导模型生成符合预期的小说文本。以下是数据预处理的关键步骤:
(1)提取关键信息:从收集到的小说样本中提取关键信息,如人物描述、情节梗概、对话示例等。这些信息有助于为API 构建提供更具指导性的提示。
(2)构建样式参考:为了引导模型生成特定风格的文本,从数据集中提取具有代表性的文本片段,作为风格参考。这将有利于训练模型在生成过程中遵循相应的风格特征。
(3)组合提示:将上述提取的关键信息和样式参考组合成具体的提示,以便与API交互时使用。提示可以包括一系列描述性短语、问题或命令,使模型能够更好地理解生成任务的需求。
经过上述预处理步骤,就能够构建有效的提示,以引导GPT3.5 模型的微调训练,便于生成高质量的小说文本。但在微调过程中,还需要根据生成结果对提示进行调整和优化,以进一步提高文本质量。
2.2 微调(fine-tuning)过程
微调GPT3.5模型需在遵循OpenAI微调指南的前提下进行,例如增加一些全连接层和Dropout层,这些层可以随机地删除一些神经元,以减少模型的复杂度,从而提高模型的泛化能力,防止过拟合。
为确保微调的可控性,引入微调控制的方法。通过设计提示、调整参数、多样性采样、迭代生成与反馈等步骤,确保模型在生成小说时的能力可以提高,减少训练时模型的能力衰减。
在提高小说文本质量方面,针对人物性格、动机和行为等特征引入监督与评估模型。使得模型在生成小说内容时,能够更好地跟踪小说内容的质量及其变化,保证小说文本的高质量生成。
为减少微调的训练量,在训练过程中为加入提示工程。通过对人类的知识来对模型进行引导监督学习,使得模型能够在生成小说时,更好地符合人类的偏好以及接触到小说之美。
在微调过程中,要定期检测评估模型,以确保模型可以继续通过本微调模型继续提高。当模型的小说写作能力不再提高时,即可停止训练,并采用最终微调结束后的模型作为最终模型。
由于OpenAI API 的限制,API 并没有直接提供调整目标函数的功能。将采用间接的方法来调整和优化微调过程中GPT3.5 模型,以生成高质量的小说文本。
(1)提示设计:通过精心设计输入提示,来引导模型生成更符合预期的文本。提示内容可以包括人物描述、情节梗概、特定风格的示例等,这有助于模型更好地理解生成任务的需求[3]。
(2)调整微调参数:微调过程中通过调整微调参数,例如学习率、批大小、微调轮数等等,来影响模型的收敛速度和准确性,从而提高生成文本的质量。
(3)调整微调数据集:微调数据集是指在微调过程中用来训练GPT3.5 模型的数据集。如果生成的文本质量没有达到预期时,可以考虑更改微调数据集或增加微调数据集的规模,以便GPT3.5 模型在训练时,可以获得更多的高质量输入和更多的上下文信息。
(4)使用后处理技术:即使用后处理技术来优化生成的文本。使用语言模型来评估生成的文本的质量,并对文本进行改进,以提高文本的质量。如文本过滤、替换和拼接等,以优化生成结果。该策略可以纠正模型可能产生的错误,如重复、不连贯或不一致的内容。
(5)使用自定义的生成器,以此来生成小说文本。这些生成器可以基于GAN、VAE等技术,以及其他的神经网络模型来生成文本,从而提高生成文本的质量。
通过应用上述的调整和优化方法,在OpenAI API 的基础上,将实现对GPT3.5 模型微调的有限控制,进而保证该模型在生成小说文本方面表现的提升。虽然这些方法可能不如直接调整目标函数那样有效,但它们在一定程度上可以促成目标的实现。
3 对生成的小说文本的评估与分析
为了评估GPT3.5 模型微调生成的小说的质量和多样性,采用多种指标进行评估。本节将分别讨论生成内容的评估和评估模型的建立。
3.1 生成内容的评估
生成内容的评估是衡量模型生成小说文本质量的重要步骤。评估的目标是确保生成的文本具有良好的文学品质、连贯性、个性化和风格一致性。以下是一些评估生成内容的方法。
(1)一致性:检查生成的文本在情节、人物设定、时间线等方面的一致性,确保文本在逻辑上没有明显的错误。
(2)语法和拼写:评估生成文本的语法和拼写正确性,确保文本没有明显的语法错误和拼写错误。
(3)小说特性:评估生成文本的小说性,包括情节设定、人物描绘和故事发展等方面。
(4)风格一致性:检查生成文本的风格是否与预期的风格一致,包括叙述方式、对话风格和文学手法等方面。
3.2 评估模型的建立
为了检测GPT3.5 在生成小说文本方面性能的提高程度,需建立一个评估模型,以达到可控制微调的效果,其中评估模型包括机器初评估和人工审查评估。
3.2.1 机器评估
机器评估可以快速地对大量生成的文本进行初步评估。以下是一些机器评估方法:
(1)自动评估指标:BLEU 分数是一种机器翻译中常用的评估指标,它用于衡量模型生成的文本与参考文本之间的相似度。该指标对生成文本与参考文本之间的相似性进行评估。虽然这些指标可能无法完全捕捉文学品质,但它可以提供一个初步的评估结果[4]。
(2)语言模型得分:使用预训练的大语言模型(如GPT-4、ChatGPT、百度文心等)对生成文本进行打分,衡量生成文本的流畅度和自然性。
3.2.2 人工审查评估
人工评估是通过邀请人类评审员对模型生成的小说进行评估,如小说的故事情节、人物刻画、文学价值等方面。人工对机器模型生成的小说文本评估可以包括以下几个方面:
(1)评估指标的确定:人工评估需要确定评估指标,例如故事情节、人物刻画、文学价值等方面的质量。评估指标应该根据评估的目的来确定,以确保评估的有效性和可靠性。
(2)评估样本的选择:评估样本应该从模型生成的小说中随机抽取,以确保评估结果的代表性和可靠性。
(3)评估者的选择:评估者应该具有相关领域的知识和经验,例如专业的小说作者和读者。评估者还应该接受培训,以确保他们理解评估指标并能够进行准确的评估。
(4)评估方法的确定:评估方法可以采用定量和定性相结合的方式。定量方法可以使用评分表或问卷来收集评估数据,然后进行统计分析。定性方法可以使用讨论、深度访谈等方式来获取评估者的意见和建议。
(5)评估结果的分析:评估结果可以通过统计分析和主观分析相结合的方式来进行分析。统计分析可以用来比较不同评估者之间的评估结果和评估样本之间的差异。主观分析可以用来分析评估者的意见和建议,并提出改进模型的建议。
通过评估和分析,可以更全面地评估该模型在生成小说文本方面的性能,以提高微调的效率。通过不断地评估和优化,持续提高模型的生成质量,使其在小说写作领域发挥更大的作用。
4 提示工程通过微调GPT3.5模型在高质量小说文本生成上的应用
提示工程(prompt engineering)是一种在自然语言处理任务中优化模型输入的策略,以提高模型在特定任务上的表现。在微调GPT3.5 模型生成高质量小说文本的过程中,提示工程可以发挥关键作用[5]。以下阐述了提示工程在此应用场景中的重要性。
4.1 提示工程在微调GPT3.5模型的应用
提示工程的核心思想是通过设计精细的、任务相关的提示,引导模型生成更符合预期的输出。在微调GPT3.5 模型生成高质量小说文本的过程中,提示工程可以帮助模型更好地理解任务需求,如在指导情节设定、控制写作风格、限制故事篇幅等方面,可引导模型生成更丰富、更具吸引力的故事情节。从而实现更符合人类偏好的输出。
以下是提示工程在此过程中的应用示例:
基于任务需求提供有针对性的提示,需创建具有指导性和启发性的大纲内容,以引导模型生成更高质量的小说文本,保证前后文逻辑通顺,情节具有可推敲性。在生成每章节的大纲时,评估提示的有效性对其内容进行迭代优化,以实现更好的生成效果。其具体应用流程如图1所示。
图1 基于提示工程生成大纲的流程
利用txt 文件生成prompt:将小说文本数据进行切分,与上述应用示例中提供的大纲相结合,最终生成可供微调[6]训练的输入数据。其具体流程如图2所示。
图2 数据切分生产训练数据的流程
为增强生成长篇小说内容方面的能力,需为两种不同作用的模型提供大量新数据集的投喂,从而使模型更加明确任务需求,确定生成小说文本的具体要求,如主题、风格、情节设定等,以便为模型提供更清晰的指导。其流程图如图3所示。
图3 基于投喂数据确定小说文本要求的流程
4.2 提示工程的实际应用与优势
通过应用提示工程,微调后的GPT3.5 模型在生成高质量小说文本方面具有以下优势:
(1)更符合人类偏好:提示工程有助于模型生成更贴近人类审美和阅读习惯的文本,提高生成作品的吸引力和可读性。
(2)辅助创作:通过提供有关情节发展、角色设定和故事主题等方面的大纲创意启示,提示工程可以帮助作者更好地构思故事,提高创作效率。
(3)提高生成效果:提示工程可以引导模型聚焦于特定任务要求,从而减少无关或低质量文本的生成,提高生成内容的质量和准确性。
(4)个性化生成:通过针对不同作者和领域的需求定制提示,提示工程可以实现更个性化的生成服务,满足各种创作需求。
综上所述,提示工程在微调GPT3.5 模型生成高质量小说文本方面具有重要应用价值。通过设计精细的、任务相关的提示,可以引导模型生成更符合预期的输出,从而实现更高质量的小说文本生成。
5 结语
本文研究了基于微调GPT3.5 模型的优化模型生成更具有特色的小说,着重介绍了如何使用微调控制方法以及提示工程来优化模型在小说生成任务上的表现。阐述了数据集准备、模型微调以及评估和分析的过程,展示了提示工程如何提高生成质量以及同时降低训练成本。
然而,这一研究领域仍然面临着众多挑战,如数据偏见、知识泛化能力等。未来的研究可以探索更先进的模型和方法,包括强化学习、元学习、神经网络修剪、知识转移等方法,以进一步提升模型性能,减少模型训练量。此外,开放模型(如ChatGPT)将为模型提供海量的人工提示资源,这将使得模型更加偏人类化。
最后,希望这项研究可以为自然语言处理领域的研究提供参考,为开发更好的小说生成模型提供思路并推动人工智能应用的发展与落地。在未来的研究中,期待有更为先进的语言模型出现,使得AI 小说文本生成可以接触到小说之美。