APP下载

结合主题模型与自监督学习的可控文本生成技术研究

2023-04-29胡益刘嘉勇代金鞘贾鹏

胡益 刘嘉勇 代金鞘 贾鹏

摘要: 基于大型预训练语言模型的有监督学习方法在可控文本生成任务上取得了优秀的成果,但这些研究都着重于控制生成文本的高级属性(比如情感与主题),而忽略了泛化性问题.现有的基于自监督学习的研究方法则通过句子级别的训练来使模型获得补全整句的能力,使模型做到单词和短语级别的控制生成,但生成与特定属性强相关句子的能力依旧待提升.所以本文提出了一种单词级别(细粒度)与句子(粗粒度)级别相结合的多粒度训练方式:单词级别的主题模型让模型学习主题层面的语义以获得主题到文本的生成能力,句子级别的自监督训练让模型学习整句的表征以获得补全句子的能力.通过主题模型与自监督学习的结合,使模型在单词与短语级别的可控生成阶段取得了更好的效果.实验表明,本文提出的模型在主题契合度以及常规文本生成指标方面优于现有的基线模型.

关键词:可控文本生成; 主题模型; 预训练语言模型; 自监督学习

中图分类号:  TP391  文献标识码:A  DOI:10.19907/j.0490-6756.2023.053002

收稿日期:  2022-10-14

基金项目:  四川省科技厅重点研发项目(2021YFG0156)

作者简介:   胡益(1997-), 男, 硕士研究生, 研究方向为可控文本生成. E-mail: 1160553681@qq.com

通讯作者:   刘嘉勇.E-mail: ljy@scu.edu.cn

Controllable text generation technology based on  topic model and self supervised learning

HU Yi, LIU Jia-Yong, DAI Jin-Qiao, JIA Peng

(School of Cyber Science and Engineering, Sichuan University, Chengdu 610065, China)

Supervised learning methods based on large-scale pre-trained language models have achieved excellent results in controllable text generation tasks, but current approaches mainly focus on controlling the high-level attributes of the generated text such as emotion and theme, neglecting the generalization problem. The existing research methods based on self-supervised learning use sentence-level training to enable the model to obtain the ability to complete the entire sentence, so that the model can control the generation of words and phrases, but the generation is strongly related to specific attributes. To address this problem, this paper proposes a multi granularity training method combining word level (fine granularity) and sentence level (coarse granularity): word level topic model lets the model learn the semantics of the topic level to obtain the ability to generate topic to text, and sentence level self-monitoring training lets the model learn the representation of the whole sentence to obtain the ability to complete the sentence.Through the combination of topic model and self supervised learning, the model achieve better results in controlled generation at the word and phrase level.Experiments show that the proposed model is superior to the existing baseline model in terms of topic fit and conventional text generation metrics.

Controllable text generation; Theme model; Pre-training language model; Self supervised   learning

1 引 言

基于Transformer  [1] 的大型预训练语言模型在包括文本生成在内的各类自然语言生成(Natural Language Generation,NLG)任务中都取得了优秀的结果  [2] .此类模型使用注意力机制提取上下文的词嵌入,并使用大量语料进行训练,从而得以生成非常流畅的文本.

由于预训练模型解决了生成文本的流畅性问题,人们便开始尝试控制预训练语言模型输出的文本包含指定属性与内容  [3] ,从而产生了多种可控文本生成任务(Conditional Text Generation,CTG).可控文本生成广义上涵盖了机器翻译、文本摘要和文本风格迁移等任务.可控文本生成在在线交互娱乐、智慧教学等方向上有很大的应用价值,此类任务需要针对性地生成包含指定主题情感和关键词的文本.

为达成上述目标,研究者们开始使用特定目标属性对预训练语言模型进行微调  [3] ,使该语言模型能够生成包含指定属性的文本.但由于需要使用大量标注数据对模型进行重新训练,且模型只会接触标注数据中的目标属性,使得此方法对文本可控的范围存在限制,训练开销较大且泛化性较差.而在保留预训练模型的基础上,通过使用标注数据和属性鉴别器  [4] 控制生成文本的方法被证实在高级文本属性(比如情感极性)的控制上取得了优秀的效果,此类方法即插即用.为规避标注数据,有研究开始将自监督学习结合预训练模型  [5] 来提高模型学习补全整句的能力.此研究通过将训练数据切分为两部分,以后半部分为真实值来训练模型补全整句,从而提升单词和短语级别的控制能力,因为引入自监督学习也避免了使用大量的标注数据集  [6] .

自监督训练在一定程度上能解决有监督训练的模型泛化性差、控制生成的自由度较低的问题  [5] ,但自监督学习在生成主题强相关的文本时表现较差,因为只使用进行粗粒度(句子级别)的训练不足以使模型获得足够的细粒度(单词级别)控制能力.对此本文提出将主题模型(Topic Model)与自监督学习结合,在Chan等人  [5] 工作的基础上加入主题模型并改进训练数据的处理方法,通过主题模型获得训练文本的关键词,将关键词与训练文本一起作为编码器的输入并构建新的损失函数来进行自监督训练. 通过这种粗细粒度结合的训练方式让模型同时获得补全句子与根据关键词语义拓展句子的能力,以获取更好的单词与短语级别的可控文本生成能力.本文的贡献如下:(1) 提出了一种结合主题模型与自监督学习的可控文本生成模型,使模型能够在单词以及短语级别的控制度上生成流畅的文本,相较自监督训练的模型在生成主题强相关文本时表现更好.(2) 大规模的实验表明,本模型在这些指标上优于现有的基线模型.将本文模型与多个基线模型基于指定的生 成规则生成测试文本,并使用基于RoBERTa的主题分类器与多个生成文本评价指标对这些生成文本进行测试.

2 相关工作

目前可控文本生成已有大量的相关研究,大部分可控文本生成方案可分为:构造 提示文本(Prompt)  [7] 、自动编码器(auto encoders)  [8] 、生成式对抗网络(Generative Adversarial Networks,GAN)、使用控制代码(Control Codes)  [3,4] 、加入解码策略(Decoding Strategy)  [9] ,以及插入额外的训练模块  [5] 等多种方法.

早期的可控生成模型研究采用强化学习  [10] 或GAN  [11] ,生成预定属性的文本,不过这类方法对预定属性的需求限制了生成文本的种类,并且GAN生成的文本存在模式崩溃和训练不稳定的问题.对此,近期的研究者受多任务学习的启发,提出了类别感知变分递归神经网络  [12] ,使用生成和分类任务同时训练生成不同类别的文本,当分类任务合适时,多任务学习可以提高生成文本的质量.

在早期研究中,CTRL模型  [3] 通过在预训练阶段加入了控制代码作为信号去影响生成文本的高级属性(比如主题、情感与实体),从而生成受控的流畅文本.虽然能通过改变控制代码生成多种领域的文本,但这些控制代码需要在训练阶段确定,控制代码的自由度低,泛化性较差且训练成本高.而Dathathri等人  [4] 提出的基于预训练模型的即插即用语言模型(PPLM)通过额外引入经少量文本训练的属性判别器与奖励惩罚机制,极大地降低了训练成本,但仍需要高级属性作为控制代码.Yang等人  [13] 基于此思路提出了未来鉴别器,在诗歌生成任务中提升了效果.而近年的研究开始向更加细化的方向发展,Holtzman等人  [14] 提出的加权解码器通过在解码器中增加目标属性的权重来达到可控文本生成.Krause等人  [9] 提出的GeDi解决了PPLM 多次反向传播导致的解码效率低下,在解码阶段加入属性判别器来控制解码输出.Chan 等人  [5] 提出的自监督学习模型CoCon通过在GPT-2 中间插入精调的Transformer层来降低训练成本,并且通过自监督损失函数达成了单词和短语级别的控制能力.

这些方法虽然解决了有监督训练模型导致的控制文本的自由度问题以及泛化性问题,但基于句子级别的训练方式去进行单词级别的生成任务导致在生成与主题强相关的句子时效果衰减较快.因此,本文模型在CoCon的模型结构的基础上加入了主题模型以及与之相应的主题重构损失函数,并改进了数据的预处理方式,将训练文本及其主题关键词一起输入进行自监督训练.有效提升了模型主题到文本的可控生成能力,并在生成阶段使用超参数增加控制文本的权重后表现更加稳定.

3 研究方法

早期的可控文本生成研究中通过在训练时加入控制代码  [3] 或目标属性  [4] 作为真实值进行训练,存在需求标注文本、泛化性差以及控制能力弱等问题.而Chan等人  [5] 提出的自监督学习方式如式(1)所示,通过将训练文本切分为两部分并将后半部分句子作为控制代码来实现自监督学习,其中切分后的前半句称作提示文本,作为真实值的后半句为控制文本 c .

p(x  l,...,x  t|x 1,...,x   t-1 )=

∏ t  i=l  p(x  i|c={x  t,...,x  l},{x 1,...,x   i-1 })  (1)

自监督训练规避了标注文本的需求以及控制代码的泛化性问题.虽然该模型实现了单词级别的控制能力,但本质上获得的是句子的补全能力,使用较长提示文本加关键词作为输入时效果较好,但在只使用少量单词进行生成时效果下降.粗粒度的句子级别训练获取的细粒度控制能力并不完整.

本文提出的方法结合了粗细粒度的训练方式,在使用关键词、短语或句子作为输入文本时,都能获得更好的文本生成效果,如式(2)所示.

p(x  l,...,x  t|x 1,...,x   t-1 )=∏ t  i=l  p(x  i|x  topic ,

c={x  t,...,x  l},{x 1,...,x   i-1 })  (2)

在生成阶段则通过输入自定义的提示文本与控制文本进行可控文本生成,示例如表1所示.

3.1 模型结构

本文沿用了CoCon  [5] 的模型结构,该模型基于Transformer的预训练语言模型GPT-2  [7] ,并插入额外的Transformer模块,且训练阶段将只训练该模块.CoCon分为三个部分,其中GPT-2部分被拆分为 Model    α  和 Model    β  ,而新插入的Transformer模块称为 Model    γ  .

如图1所示,相较于CoCon模型,本文模型新增了主题模型模块并改进了数据预处理方法.处理流程如图2所示.在图2所示的数据预处理流程中,每条训练数据将在进行分词后,从头开始截取前20%个字节对编码(Byte Pair Encoding,BPE)  [15] 的文本,若长度未达到30个BPE则增加至30个,限制长度是因为当输入文本长度过长时会极大地增加训练成本.截取后的训练文本在训练阶段将会按照近似于1∶2的比例进行切分,前半部分为提示文本,后半部分为控制文本.每条训练数据分词后还会输入主题模型中计算出多个主题关键词,将这些主题词拼接在处理完的训练文本之后一起进行词嵌入,在训练时将其拆分为提示文本、控制文本和主题文本进行自监督训练.

3.2 主题模型算法

在对所有训练文本进行分词和截取之后,使用主题模型算法计算得出各自的主题词,算法使用狄利克雷分布(Latent Dirichlet Allocation,LDA)算法与吉布斯采样狄利克雷多项式混合模型算法  [16] (Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model,GSDMM),此二种算法都是用于文本聚类的主题模型算法,其中 LDA假设每条文本包含多个主题,模型会输出该文本各主题的权重.GSDMM更适合短文本的主题聚类,并假定每条文本只有一个主题.

式(3)展示了数据预处理阶段的内容, [ x   1 ,..., x   L ] 为经过分词和截取长度后的输入文本,  x    topic 为主题模型输出的主题词,将LDA模型输出的权重前 n 个主题词与GSDMM输出的主题词取并集后与输入文本进行拼接输入到 Model    α  中.

x 1   topic  ,...,x n   topic  =LDA ([x  1,.. ,x  L])

x  n+1    topic  =GSDMM ([x  1,.. ,x  L ])

h  :L ,h   topic  = Model  α[x 1,...,x L;x 1   topic  ...x  n+1    topic  ]  (3)

因为GSDMM模型更加适合短文本的聚类任务,所以输出单个主题词.对于120个词左右的短文本来说,其文本属性包括主题、情感、实体等多个方面,单个主题通常无法准确描述文本的语义与主题.因此,本文将LDA与GSDMM一起使用,将LDA计算得到的权重前 n 的主题词与GSDMM计算得到的主题词一起使用,若有重复则合并.这样对于每条数据都会得到多个关键词,将这些关键词拼接到文本之后再一起输入到模型中进行自监督学习,这些关键词将会用在训练阶段的主题重构损失函数中.

3.3 主题重构损失函数

自监督学习方法能有效地解决有监督学习遇到的标注数据获取难及训练成本高等问题,通过将输入文本 X=[ x   1 ,..., x   L ] 拆分为提示文本   x   p =[ x   1 ,..., x   t-1 ] 和控制文本  x   q =[ x   t ,..., x   L ] 两部分,构造多种损失函数来达到训练模型还原句子的能力.

本文在CoCon  [5] 基础上加入了主题重构损失,使用主题模型算法获得输入文本的主题词,基于主题词与  x   p  来还原文本,在训练模型补全句子的同时兼备了主题到文本的生成能力,这样能更好地完成细粒度的可控文本生成任务.

主题重构损失函数使用主题词  x    topic 与控制文本  x   q  帮助模型理解语义,这种单词级别(细粒度)的训练可以使模型获得主题到文本的生成能力.将此损失与自重构损失一起使用是优化模型细粒度控制能力的核心方法与本文的创新点之一.首先通过 Model    α  获取提示文本  x   p =[ x   1 ,..., x   t-1 ] 的隐层向量  h   :t-1  与  h   t:L  以及主题词的隐层向量  h    topic .

h   topic =Model  α [ x   topic ]

h′  t:L = Model  γ[h  :t-1 , h    topic ]

h′  :L = Model  γ[h   topic ] (4)

如上式所示,在获取各隐层向量后,主题重构分为两种;使用  x   p =[ x   1 ,..., x   t-1 ] 作为提示文本且主题词隐层向量  h    topic 作为控制文本来预测后半部分,并将  x   q  作为真实值进行损失计算;以及只使用主题词隐层向量  h    topic 作为提示文本,控制文本设置为空来生成整句 [ x   1 ,..., x   L ] .两种损失共同组成主题重构损失函数  L    topic ,如式(5)所示.

L 1  topic =-∑ L  i=t   log p(x  i|(c=x  topic ),{x 1,...,x   i-1 })

L 2  topic =-∑ L  i=1   log p  λ(x  i|c=x  topic )

L   topic  =λL 1   topic  +(1-λ)L 2   topic    (5)

其中, λ 为控制两种损失权重的参数;设置  L    2   topic 损失目的是为了强化模型的主题到文本的生成能力,但此类能力的强化也会造成文本质量的下降,甚至造成模型退化。所以给此类损失设置的权重较低.主题重构损失在本质上比较接近有监督学习,而有监督学习的泛用性受制于训练数据集的内容丰富度,其效果通常会在在遇到训练数据集中没有的内容时下降.除此之外文本同样使用了CoCon中使用的多种损失其他函数.

自重构损失函数通过将  x   p 作为提示文本 ,  x   q  作为控制文本 c ,训练模型生成与  x   p  保持流畅,且内容包含  x   q  的文本.帮助模型还原整句,使模型获得补全句子的能力.自重构损失  L    self 如式(6)所示.

L  self =-∑ L  i=t   log p(x  i|(c=x  q),{x 1,...,x   i-1 })   (6)

循环重构损失  [5] 一定程度上能解决由训练集覆盖面不全引起的泛化问题.通过在训练时不直接接触真实值,通过间接使用真实值进行训练来使模型在接触不同文本源的控制文本时能有更好的泛化能力.该损失函数可总结如下.

L  cycle =-∑ L  i=t   log p(h′ 2=x  q|(c=h′ 1),

{x 1 1,...,x  1  i-1 })  (7)

对抗性损失函数  L    adv 有助于提高生成文本的质量在已有研究中被证实  [11] 表明,如式(8), X 为训练数据中的文本,  X   为模型生成的文本,鉴别器Disc用于判断文本是否是由本文模型生成的文本.

Ρ =1- Disc(Model  α(x ~ ))

Ρ= Disc(Model  α(x))

L   adv  =E  x∈X  log (Ρ)+E  x ~ ∈X ~   log (Ρ )  (8)

综合上述内容,本文模型在训练阶段的总体损失函数即为上述4种损失函数的加权和,表示如式(9)所示.其中权值 λ 为人工设定.

L   total  =λ   self  L   self  +λ   topic  L   topic  +λ   cycle  L   cycle  +λ   adv  L   adv    (9)

3.4 算法流程

算法1与算法2展示了模型训练与生成阶段的算法流程,其中训练阶段的输入已经经过3.1节中的数据处理,算法1中的损失计算由3.3节中的多种损失函数组成.生成阶段中若有多个控制文本需要输入,则只需要将这些控制文本对应的向量全数拼接在一起.

4 实 验

本节首先将简述实验的基本设置与评价指标,再检测模型生成文本的质量与主题契合度,并与近年来较为先进的其他模型进行对比.

4.1 实验设置

本次实验中使用GPT-2-medium-345M  [7] 作为预训练模型.为了降低训练时间,分别使用5层与15层GPT-2的Transformer模块作为 Model    α  与 Model    β  ,并使用单独的一层Transformer模块作为 Model    γ  ,批次大小设置为16.训练数据集使用24万条GPT-2-medium-345M的生成文本.由于数据集文本的长度过长会导致训练成本增大,所以在数据处理阶段只从头开始截取30个BPE(Byte Pair Encoding)长度的文本作为训练语料,训练时计算总体损失函数的权重  λ    topic 、  λ    self 、  λ    cycle 、  λ    adv 沿用Chan等人  [5] 的设定,都设置为1,而其中计算主题重构损失时,权重 λ 设置为0.8.在测试阶段,除了数个常规评价指标以外,还使用了经过新闻数据集微调后的RoBERTa  [18] 预训练模型用作分类器进行主题契合度的测试.

为统一各类测试的标准,模型采取相同的格式进行测试文本生成,提示文本使用常用的英文开头词,而控制文本使用特定主题或领域内的词语,生成实例可参考表1.

4.2 对比实验设置

除了未经调整的GPT-2作为基线模型,本文还使用了以下三种先进的可控文本生成模型进行对比实验.(1) CTRL  [3] :通过在预训练阶段使用控制代码进行大规模有监督训练的模型.实验将使用Huggingface  [19] 版本.(2) PPLM  [10] :通过引入属性判别器对预训练模型进行精调地即插即用模型.使用Huggingface  [19] 版本.(3) CoCon  [5] :与本文模型结构类似,通过在预训练模型中插入Transformer层来进行自监督训练.本次实验使用表2中的gpt-2-output-dataset作为训练集进行训练.同时引入了偏置参数τ的概念  [5] ,本次实验会在本文模型与CoCon的测试中使用,设置此参数会影响控制文本的重要程度.

4.3 评价指标

本文实验将首先使用多种常规的自然语言处理任务评价指标包括:(1) BLEU  [20] :评估生成文本与参考值的接近程度,其中高阶 n -gram的BLEU比如BLEU-4还可以同时衡量句子的流畅性.(2) NIST  [21] :通过引入了每个 n -gram的信息量的概念对BLEU进行改进.(3) METEOR  [22] :在BLEU的基础上扩充同义词集,并在计算方式上融合了准确率、召回率.(4) Dist  [23] :测试生成文本的多样性.

这些指标主要用于检测模型生成文本的质量与句子补全能力.除了这些常规的生成文本指标以外,我们还训练了一个分类器来判断生成文本的主题是否符合控制文本.分类器采用微调后的预训练模型RoBERTa  [18] 并使用新闻分类数据集进行调整,此分类器将会测试模型生成文本在控制文本所在主题的相关度,并输出相应的精确率( Precision )、召回率( Recall )和 F 1分数,其中精确率是在被所有分类为主题相关的样本中实际与主题相关的概率.召回率是覆盖面的度量,表示被分类为与主题相关的样本占所有与此主题相关的样本的比例 .F 1分数为精确率与召回率的综合考量,计算如下式所示.

F1=2· Precision·Recall Precision+Recall   (10)

4.4 实验结果与分析

为了验证本文提出模型的有效性,我们分别进行了以下三个方面的实验.

4.4.1 补全句子能力测试  实验将与多个基线模型进行对比,结果如表2所示.其中为方便展示,BLEU与Back-BLEU指标将在× 10   2 后展示.为验证主题损失函数与数据预处理的效果在表中同时进行消融实验.表中“本章模型-预处理”指只使用预处理模块,“本章模型-主题重构损失”指只使用主题重构损失模块.

如表2所示,加粗数据为最优值.可知本文模型无论在内容相似度、流畅性与文本多样性上都具有优势,其中CTRL因为需要单词作为控制代码进行可控文本生成,所以在句子级别的内容相似性检测中效果较差.本文模型与CoCon因为自监督学习带来的补全句子能力使得在BLEU这种内容相似度评价指标上表现较好.主题重构损失使本文模型更好地理解语义,使补全句子地能力进一步提升.预处理部分的改动本身没有带来明显提升,但和主题模块的结合有着较好的效果.

4.4.2 主题到文本的生成测试  为测试模型的主题到文本的可控文本生成能力,即单词短语级别的控制能力,本文在特定领域内选取单个主题词作为控制文本进行生成,测试生成文本是否符合控制文本的语义与主题.

实验将选择在”政治”相关的词语中选取标志性的单词作为控制文本,并使用常见开头词作为提示文本进行生成.实验中各个模型根据提示文本与单个控制文本生成测试文本,将这些测试文本输入到提前训练好的分类器中,输出相应的精确率以及 F 1分数.同时对本文模型的两个模块进行消融实验.

实验结果如表3所示,本文模型各项指标上都略优于其他基线模型,这表明本文模型生成的文本具有更好的主题相关性.其中CTRL与PPLM使用控制代码进行可控文本生成,其生成文本会与控制代码单词本身相关,但并不一定会与相应的主题有较高的相关性,并没有理解语义,所以得分较低.而本文模型在训练阶段使用了主题词进行训练,所以生成文本更加倾向于既与控制文本本身相关,又在主题与语义层面与控制文本相关,所以在以主题词为控制文本的生成任务上表现更好.

从消融实验可看出,主题重构损失的加入对模型效果的提升起到了关关键作用.改变数据预处理方式有较小提升,而且和主题模型相结合时有着更好的效果.因为在120词左右的文本中随机截取片段时很可能截取到语义不完整且信息量低的部分,对于长度较长的训练文本截取长度过短会妨碍模型对语义的学习.改变为从头开始截取以及动态地增加截取长度对进行主题重构损失计算有一定的帮助.

4.4.3 偏置参数的影响  本文在4.2节中提到,CoCon引入了偏置参数τ的概念  [5] ,此参数会影响控制文本的重要程度,设置较大的偏置参数 τ 会在增加控制文本的权重的同时降低文本的流畅度,在 τ 设置过大时会生成可读性低的文本.本次实验中加入 τ 分别设置为0与10 的两种模型,其中设置为10的模型标注为Bias-10.实验结果如表4所示.

本文模型在偏置参数 τ 设为10的情况下效果衰减更少,并在多样性指标DIST上有增长而降低了流畅性.因为通常在偏置参数设置较高时,其他模型会倾向于生成与控制文本本身相关单词,更容易对控制文本进行大量复制,而脱离了控制文本的语义与主题,而本文模型的表现相对会更好一些.

在表5中展示了偏置参数 τ 对本文模型生成文本的影响,可以看到当偏置参数设置过高时也会发生单词复制的情况.

4.4.4 人工评估  表6展示了人工评估实验的结果,四种评价指标分别为控制文本相关性、主题契合度、一致性、流畅性和连贯性.其中相关性表示生成文本是否契合控制文本,在主题上是否与控制文本相关.流畅性代表文本在语法层面上的通顺性与可读性,而连贯性表示文本在逻辑上是否通畅.此实验将从每个模型的生成文本中随机挑选50条文本供人工评估,对于每条文本的这三个指标都需要在1~5分的区间内打分,最后得到平均得分.

5 结 论

本文基于预训练语言模型,将自监督学习与主题模型相结合,提出了一种能够在单词与主题级别上进行可控文本生成的模型.模型通过使用多种主题模型获取训练文本的主题词,并将此主题词与训练文本的一部分输入到编码器中,以训练模型基于主题进行可控文本生成的能力.同时将训练文本切分为两部分,以后半部分为真实值,前半部分为输入来进行自监督训练,训练模型补全句子的能力.实验部分使用了常规机器翻译的评价指标以及用公开新闻分类数据集训练的分类器对模型生成文本进行检测,证明本文模型在大部分指标上优于现有的先进模型,模型拥有了单词级别的可控文本生成能力,并且在生成与控制文本强相关的文本时表现更好.

本文仍存在两个不足之处:(1) 训练成本较高;(2) 在训练阶段全部使用真实值进行训练,不利于模型泛化.虽然模型可以在单词和短语级别进行可控文本生成,但模型并没有真正理解训练文本的语义,还不能完全做到基于语义进行可控文本生成.未来将计划加入对比学习,通过构造高质量的正负样本对进行自监督训练来让模型深入理解语义.

参考文献:

[1]   Vaswani  A, Shazeer N, Parmar N,  et al . Attention is all you need [C]//Proceedings of the 31 th International Conference on Neural Information Processing Systems. Long Beach: NIPS, 2017: 6000.

[2]  Covington M A. Building natural language generation systems [J]. Language, 2001, 77: 611.

[3]  eskar  N S, McCann B, Varshney L R,  et al . Ctrl: a conditional transformer language model for controllable generation [EB/OL]. [2019-09-20]. http://arxiv.org/pdf/ 1909.05858.pdf.

[4]  Dathathri  S, Madotto A, Lan J,  et al . Plug and play language models: a simple approach to controlled text generation [C]// Proceedings of the 8th International Conference on Learning Representations. Addis Ababa: ICLR, 2020: 1.

[5]  Chan A, Ong Y S, Pung B,  et al . CoCon: a self-supervised approach for controlled text generation[C]// Proceedings of the 9th International Conference on Learning Representations, Vienna: ICLR, 2021:  1.

[6]  Jing L, Tian Y. Self-supervised visual feature learning with deep neural networks:A survey [J]. IEEE T Pattern Anal Mach Intell, 2020, 43: 4037.

[7]  Radford A, Wu J, Child R,  et al . Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1: 9.

[8]  Ko H, Lee J, Kim J,  et al . Diversity regularized autoencoders for text generation[C]//Proceedings of the 35th Annual ACM Symposium on Applied Computing. Brno: SAC, 2020: 883.

[9]  Krause B, Gotmare A D, McCann B,  et al . Gedi: generative discriminator guided sequence generation [EB/OL]. [2020-10-22].https://arxiv.org/pdf/2009.06367.pdf.

[10]  Ziegler D M, Stiennon N, Wu J,  et al . Fine-tuning language models from human preferences [EB/OL].  [2020-01-08]. https://arxiv.org/pdf/1909.08593.pdf.

[11] Yu  L, Zhang W, Wang J,  et al . Seqgan: sequence generative adversarial nets with policy gradient[C]// Proceedings of the 31th AAAI Conference on Artificial Intelligence Association for the Advancement of Artificial Intelligence. San Francisco: AAAI, 2017.

[12] Cheng P, Dai J, Liu J. CatVRNN: Generating category texts via multi-task learning [J].Knowl-Based Syst, 2022, 244: 108491.

[13] Yang K, Klein D. FUDGE: controlled text generation with future discriminators [C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Mexico: NAACL-HLT, 2021: 3511.

[14] Holtzman A, Buys J, Forbes M,  et al . Learning to write with cooperative discriminators [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: ACL, 2018: 1638.

[15] Gage P. A new algorithm for data compression [J]. C Us J, 1994, 12: 23.

[16] Yin  J, Wang J. A dirichlet multinomial mixture model-based approach for short text clustering [C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: KDD, 2014: 233.

[17] Yang Z, Hu Z, Dyer C,  et al . Unsupervised text style transfer using language models as discriminators[C]//Proceedings of the 32 th International Conference on Neural Information Processing Systems. Montreal: NIPS, 2018: 7298.

[18] Liu Y, Ott M, Goyal N,  et al . Roberta: a robustly optimized bert pretraining approach[EB/OL]. [2022-06-01]. https://arxiv.org/pdf/1907.11692.  pdf.

[19] Wolf  T, Debut L, Sanh V,  et al . Huggingface's transformers: state-of-the-art natural language processing [EB/OL]. [2020-07-14]. https://aclanthology.org/2020.emnlp-demos.6.pdf.

[20] Papineni  K, Roukos S, Ward T,  et al . Bleu: a method for automatic evaluation of machine translation [C]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia: ACL, 2002: 311.

[21] Doddington  G. Automatic evaluation of machine translation quality using n-gram co-occurrence statistics [C]//Proceedings of the second international conference on Human Language Technology Research. Athens: LREC, 2002: 138.

[22] Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments [C]//Proceedings of the Acl workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Ann Arbor:WS, 2005: 65.

[23] Li J, Galley M, Brockett C,  et al . A diversity-promoting objective function for neural conversation models [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: NAACL-HLT, 2016: 110.