SOM-NCSCM+:抽取式神经网络中文标题生成方法研究①
2023-09-24资康莉曹存根
资康莉 王 石 曹存根
(*中国科学院计算技术研究所智能信息处理重点实验室 北京 100190)
(**中国科学院大学 北京 100049)
0 引言
随着海量文本数据在新闻网站、社交网络等网络空间极速涌现,文本摘要作为一种关键技术,广泛用于对海量内容进行提炼总结,方便更多用户快速浏览和了解大量文档。其中,标题生成作为文本摘要的一个重要应用场景,其主要任务是针对给定的篇章或者短文本,生成能够概括或评论其主要内容的一段或者一句话作为标题。
标题生成技术已被应用于搜索结果展示、文章摘要生成、新闻标题生成等众多领域。根据需要处理的数据篇幅的不同,可将其分为单文档标题生成[1]和多文档标题生成[2];根据实现方式的不同可分为抽取式标题生成[3]和生成式标题生成[4];而根据使用的技术手段,可分为传统标题生成方法[5]和基于深度学习的标题生成方法[6]。
本文主要关注中文领域基于神经网络的抽取式标题生成方法,该类方法目前仍面临一个重大挑战:缺乏大规模、高质量的中文标注数据。而产生该挑战的原因有:(1)标题生成研究工作多在公开的外文数据集上开展,中文领域的部分研究工作未公开完整数据集,使得后续研究者无法在其已有工作基础上继续探索并进行研究成果间的比较。(2)现有中文标题标注数据多收集于各类新闻网站、社交网站,数据繁杂,缺乏统一的分类体系,或数据集未提供原分类信息,并且原网站中标题的质量难以保证,有时甚至会使用夸大或缺乏与原内容相关的词句来构造标题。
因此,针对上述挑战和问题,考虑到标题往往可直接从原文中抽取词汇或者句子来构造这一特点,本文采用了基于抽取式的标题生成技术,提出将基于无监督学习的聚类模型和主题模型融入到基于有监督学习的深度神经网络模型中的方法,使得整个模型在具有潜在主题类别特征的、新闻标题质量参差不齐的数据上也能取得较好效果。本文主要的贡献点如下。
(1) 将抽取式新闻标题生成问题转化为序列标注问题,并通过在注意力机制中融入聚类特征和主题词信息等多种特征,增强对新闻内容的上下文表示。
(2) 采用了基于自组织映射(self-organizing map,SOM)的聚类模型[7]和隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型[8],能将表达相同或相似主题的新闻内容进行聚类,并进一步从各数据簇中自动挖掘相关的主题词集合。
(3) 本文从现有公开的中文新闻数据集中抽取了部分数据,并进行了分词、错别字纠错、词性标注、命名实体信息标注等预处理,再通过人工与半自动核对等策略,得到了一个可用于抽取式中文标题生成的数据集。最后,在该数据集上进行的实验表明,本文设计的模型在微观F1、BLEU、ROUGE、压缩率等评价指标上都取得了较基准模型更好的效果。
1 相关工作
1.1 标题生成任务
标题生成任务作为文本摘要的一个分支,要求生成精炼且优质的标题,使得标题包含不会过分夸大实际内容的具体事实,能够对原内容信息进行有效地传递,并能吸引更多的用户,提高用户的阅读效率,提升阅读体验[9]。因此,在生成标题时,该任务要求去掉原文中的冗杂信息,只保留原文中涉及的关键信息,得到长度短于原文的、更加简洁的、可由原文中部分句子组成的集合或者仅为原文中关键信息组合成的标题句。标题生成技术有着巨大的应用价值和广泛的应用场景,例如邮件内容的自动生成、搜索结果展示、文章摘要生成、新闻标题生成、移动设备信息推送、社区问答等。
根据标题生成所需处理的数据篇幅可以将其分为单文档标题生成和多文档标题生成。其中,单文档标题生成关注的是对短文本或者单文档进行标题生成[1],多文档标题生成则是从一组主题或者内容相关的文档中总结生成标题[10]。而根据标题生成方法的实现方式或产生输出结果的类型,可以分为抽取式标题生成[3]和生成式标题生成[4]。其中,抽取式标题生成是从原文档内容中抽取关键词或关键句进行组合来生成标题,也即需要判断原文档中各个词语、语句的重要程度,使得最终生成的标题中的词或句均来自原文档;而生成式标题生成则是在充分理解原文档内容的基础上,允许模型使用除原文档内容以外的新词语、新语句来组成能够概括原文档内容的标题。
基于生成式以及基于抽取式的标题生成方法各有其优缺点。首先,这2 类方法都要求输出的标题能够尽可能全面地包含原文档内容的关键信息。基于生成式的标题生成方法相比于抽取式而言在用词方面更加灵活,能够生成多样化的标题表述,来满足许多应用领域对于多样化、个性化的信息展示的需求。而基于抽取式的标题生成方法是抽取原文中的一部分内容(词或句)作为输出,它产生的标题的表述会受限于原文。但是,这2 种方法及其对应的模型在实现时都会面临从互联网中获取到的数据及其原标题质量难以保证的问题。在这种现状下,使用基于生成式的标题生成方法难免会受到数据集质量的约束,而采用基于抽取式的标题生成方法,虽然损失了一定的泛化能力,但是因为其并不能“自主”生成不存在于原内容的词汇或语句,使得其在面对“噪声”数据时能够具有较好的鲁棒性,甚至能够用于发现相关数据中的“噪声”或“异常”。其次,近年来快速发展的深度神经网络技术因其强大的表征能力,给予了这2 类方法更多的可能性,使得标题生成的效果被不断提升。但是,尤其在面对长文本或者多文档标题生成时,基于生成式的标题生成方法会因缺少对关键信息的控制与定位,而需要额外控制最终模型输出的标题与原文的相关性(例如:保持原内容的主题信息等)[6],避免出现无法处理未登录词、标题与原内容关键信息关联度不高、词语重复生成等问题。而基于抽取式的标题生成方法,虽然能更好地控制与原文档内容的相关性,但是也需要设计较好的衡量原内容中关键词或句的重要程度的方法,避免抽取得到的标题中具有较多冗余信息。
此外,根据使用的技术手段来划分,传统的标题生成方法多基于统计概率与人工特征工程,且多为抽取式标题生成,通过计算得到已有数据集中的特征信息(例如句子长度、句子位置、词序、词频、逆文档频率、最大公共子串、关键词表、类簇信息等),来判断并抽取原文中具有较多信息量的词语和句子组成标题[5,11]。而基于神经网络的标题生成技术多采用“端到端”的神经网络标题生成框架[12],既可以进行抽取式标题生成(将标题生成任务转化为序列标注任务或者对句法依存树采取剪枝的任务[13]),也可以直接生成多样化表达的标题[14]。并且,基于神经网络的标题生成方法在减少人工特征工程的同时,还能够通过神经网络模型更好地学习到数据中潜在的深层信息(例如使用现有流行的大规模预训练语言模型获取句子的语义表示[15]),这些都在一定程度上解决了因为数据不均衡导致的统计信息计算不正确、获取句子表示受到相关领域数据量的限制以及难以跨领域复用等问题。
1.2 文本聚类与主题模型
在现实互联网中,大多数获取到的数据是缺乏人工标注的分类信息的,或者一些新兴的事物是没有历史类别信息的,而文本聚类是对文本数据进行聚类分析以解决样本分类问题的一种方法。它作为一种无监督机器学习方法,具有一定的灵活性和自动处理能力,可以通过已有数据内部自身的特征,探索性地将相似数据进行归类,来得到数据中潜在的自然分组情况,而不依赖预先定义的类别标记。
因此,文本聚类方法可作为一个独立工具,对数据进行类似预处理的操作,来获得数据的基本分类情况。目前,传统的文本聚类算法有K-means[16]、BIRCH (balanced iterative reducing and clustering using hierarchies)[17]以及高斯混合模型(Gaussian mixture model,GMM)[18]等,这些算法和技术已被应用于自动文摘、信息检索、推荐系统等领域中。
而本文将采用一种基于神经网络的聚类方法——基于SOM 的聚类方法。该聚类方法由Kohoen[7]提出,对应的网络模型一般只包含输入层和输出层,不包含隐藏层。其中,输入层用于接收高维的输入向量,输出层则由一系列有序节点构成(例如输出层神经元之间的结构为二维网格,它们存在横向连接),输入层与输出层之间通过权重向量连接。
与传统聚类算法以及其他基于神经网络的聚类方法不同的是,SOM 聚类方法不需要预先设置聚类数目,或者仅在传统聚类算法中融入神经网络训练得到的词或句的表示,完全采用神经网络结构,能够直接应用在输入数据的高维词向量上,并能够在输出层根据不同的输入数据激活相应的神经元的同时,将数据进行降维且保留数据的拓扑结构。此外,现有神经网络模型一般采用的都是误差修正学习方式(例如误差反向传播算法)来进行模型的训练和学习,而基于SOM 的聚类模型采用的学习方式为竞争学习。具体地,在模型训练和学习过程中,各输出神经元会有选择地适应具有潜在类别的输入数据,使得最终输入某一类的数据时,能找到与之距离最短的一个输出层神经元并激活,也即各个输出神经元代表了不同的簇,在输入某一类的数据到模型中时,该类对应的输出神经元会被激活,使得该数据划入该簇中。与此同时,这种竞争学习机制在模型训练过程中,除了会对被激活的“获胜”输出神经元与输入层之间的权重向量进行更新外,还会对设定的邻近区域内的其他输出神经元与对应的输入层之间的权重向量也进行一定程度的权值更新,这使得输出神经元之间能够保持输入层向量的拓扑特征。
另外,因为各相似数据簇中的新闻数据往往会表达相似或者相同主题,而各个主题又是以文本中所有字词为支撑集的概率分布,所以可以在文本聚类结果上进一步获取各数据簇中的主题词信息。本文采用的是被广泛应用的LDA 主题模型[8]来进一步分析各簇中的文本数据,并获取各簇中与该簇主题关联性高的、有较大出现概率的主题词集合。
具体地,LDA 主题模型作为一种文档生成模型,也是一种无监督学习技术。它采用词袋方法,将每篇文档视为一个词频向量,在生成文档时,认为一篇文档可以有多个主题,每个主题又对应不同的主题词。在采用LDA 模型进行文档生成的过程中,首先以一定概率选择某个主题,然后在该主题下再以一定概率选择一个词,之后不断重复这个过程,直到整篇文档生成结束。相应地,在本文中利用LDA 主题模型从聚类模型得到的各簇新闻内容数据中获取主题词的过程是上述文档生成过程的逆过程,即根据数据集中的新闻内容的文本集合,找到各簇数据的主题以及每一个主题对应的高频词集合。
2 抽取式神经网络中文标题生成方法
2.1 问题定义
如表1 所示,使用形式化语言对基于抽取式方法的中文新闻标题生成问题进行描述和定义。每一条新闻内容d由句子序列{s1,s2,…,sn} 组成,其中si对应新闻内容中的第i条句子。而si是一条进行了分词的词语序列,其中wi,j对应该文档d中第i条句子中的第j个词语。则对一条新闻内容d进行抽取式标题生成,是判断各条句子中哪些词语应该被保留,并最终产生一条包含了k个词语的词语序列(即标题)c={c1,c2,…,ck},其中任意一个词语cl均来自新闻内容d。
表1 中文新闻标题生成问题的形式化定义
而对于包含了N条新闻数据的数据集来说,将数据集形式化表示为,对应的标签序列集合表示为,则本文基于抽取式方法的神经网络中文标题生成模型的训练目标是使用C进行模型训练,得到神经网络序列标注模型。之后对于任意一条用于测试的中文新闻数据dtest,模型可以预测并输出对应的标签序列ytest,再根据标签序列中标“1”的标签可以找到新闻内容中相应位置的、构成新闻标题的具体词汇。
2.2 基于SOM 的聚类模型
本文采用的SOM 聚类模型是一个一维前向网络结构,输入层神经元与输出层神经元以及输出层神经元之间都是全连接的结构,具体的模型结构如图1 左下角所示。
图1 辅以聚类方法的抽取式神经网络中文标题生成模型的整体框架
其中,som(·) 表示SOM 模型对各条新闻数据的计算过程,θs表示SOM 模型中的权重参数。整个SOM 模型在设置的迭代轮次结束后停止训练。则针对输入的单条新闻内容,其对应激活的输出神经元坐标zs可以被转化为索引表示,也就对应聚类结果中该条新闻内容所归属的簇编号。
最后,利用预训练好的SOM 模型,可以获取并赋予每一条输入的新闻内容所对应的簇编号。
2.3 抽取式神经网络中文标题生成模型
2.3.1 基准模型
本文采用了常用的一种神经网络序列标注框架作为基准模型,它由一个双向的长短期记忆网络与一个条件随机场模型组成,且其输入使用了多种特征信息,包括词向量、命名实体信息、词性信息等。
具体地,对每一条新闻内容d,双向长短期记忆网络会将其对应的词向量和词汇特征(命名实体特征和词性特征)进行联合作为输入x=(e1,1,e1,2,,其中分别为词向量、命名实体特征向量、词性特征向量的维度。之后,双向长短期记忆网络的输出为一条隐层状态序列h=(h1,h2,…,hTx),其中Tx为输入向量x的长度,每一个hi是向前和向后的长短期记忆网络结构的输出表示的连接:
随后,将双向长短期记忆网络的输出h输入到一个全连接层进行一定程度上的数据降维,再将得到的输出输入到条件随机场模型中:
其中,Wd和bd为全连接层的权重和偏置向量。
则根据条件随机场模型计算得到的对应当前新闻内容d的一条标签序列y的得分为
另外,因条件随机场模型的计算会考虑所有可能预测出的标签序列,所以y出现的概率最终可以定义为
其中,Wc和bc为模型处理(yi-1,yi) 标签对时的权重和偏置向量。
在基准神经网络中文标题生成模型的训练过程中,整个模型的目标是使正确的标签序列所对应的对数概率最大化。因而本文采用维特比算法来训练条件随机场模型,并使用得分最高的标签序列y*作为模型预测并输出的最优标签序列结果。
2.3.2 融入聚类模型的中文标题生成模型
为更好地探索新闻数据内部的隐含类别特征信息,本文采用了文献[19]设计的一种神经网络框架——辅以聚类的神经网络中文句子压缩模型(SOM-enhanced neural Chinese sentence compression model,SOM-NCSCM),如图1 中的方法①所示,并将其用于中文新闻标题生成任务。
具体地,为更丰富地表示新闻内容,本文将2.2节预训练好的SOM 模型得到的簇编号特征ec与新闻内容各个分词对应的词向量以及词汇特征(命名实体特征和词性特征)进行连接,得到特征集合x′,其中分别为与基准模型相同的词向量、命名实体特征向量、词性特征向量的维度,而dc为随机初始化的簇编号特征的维度。在得到特征集合之后,将其作为文献[19]设计和采用的基于注意力机制的双向长短期记忆网络模型[20]的输入,用于将簇编号特征融入对新闻内容的上下文表示中。相应地,针对当前某条新闻内容的输出,其计算方式如下。
其中,t∈[1,Tx],Wh、Ws和ϑ都是模型中可训练的参数,而同样是向前和向后的长短期记忆网络结构的输出的连接,使用同式(2)的计算方式。
由此,通过这一额外的神经网络模型,可以得到聚类结果增强的新闻内容句子表示es。最后,再将新闻内容各个分词对应的词向量ew与整个新闻内容的句子表示es进行连接,作为基准模型的输入,以此来改进基准模型:
之后整个模型的训练过程与2.3.1 节介绍的基准模型的训练过程类似。
2.3.3 融入聚类模型和LDA 模型的中文标题生成模型
本文进一步对文献[19]提出的NCSCM 框架进行了改进,设计了4 种将聚类模型得到的聚类结果和LDA 主题模型获取的主题词特征信息进行融合来加强对新闻内容的上下文表示的方法和模型。
首先,利用LDA 主题模型对聚类结果中每个簇内的所有新闻内容进行分析,获取与该簇主题相关的、出现概率最高的前k个主题关键词。之后,将每一个簇的k个主题词转化为主题词特征向量,并构建了4 种在模型中融合主题词信息与簇编号信息的方法。各方法对应的模型如图1 中的方法②~⑤所示,具体的实现方法如下所述。
以上4 种模型在后续的训练过程,与2.3.1 节介绍的基准模型的训练过程类似,这里不再赘述。
3 数据与实验
3.1 数据与预处理
本文在实验中采用的数据集是哈尔滨工业大学整理的大规模中文短文摘要数据集(large-scale Chinese short text summarization dataset,LCSTS)[1]。其中的摘要数据来源于新闻媒体在中国社交平台新浪微博上发布的新闻内容,每条数据包含一个中文短文本和一条对应标题。另外,根据抽取式标题生成任务需求,本文对该数据集中的数据进行了一定的预处理,具体操作包括:
(1) 从原始数据集中获取新闻正文内容和对应标题。
(2) 因数据来自网络,需去掉文本数据中的特殊符号。之后再使用jieba 库对新闻内容和标题进行分词。
(3) 根据新闻标题中的分词,预先在新闻正文内容中依次、自动标注出标题中各词语出现过的位置。
(4) 人工核对,在新闻正文内容中选择语义更加连贯的词语片段,将对应的标题词语所在位置的标签标为“1”,得到标签序列。之后再经过一遍自动核对,判断新闻内容中标为“1”的那些词语是否与标题中各个词语一致,也即无漏标、多标等情况。
(5) 随机抽取标注好的数据用于模型训练、验证与测试,并使用斯坦福大学提供的自然语言处理工具包CoreNLP 对抽取的数据进行命名实体与词性标注。
最后,本文预处理后随机抽取LCSTS 得到的用于本文实验的数据集合的统计信息如表2 所示。在实验时,将其拆分成8000 条训练数据,1000 条验证数据以及1064 条测试数据。
表2 LCSTS 数据集中抽取的新闻数据
3.2 实验设置
本文实验了3 种初始化表示中文新闻数据以及主题词信息的方法,包括以字为基本单位的中文来自变换器的双向编码器表征量(bidirectional encoder representation from transformers,BERT) 预训练模型[21]以及以词为基本单位的2 种中文预训练模型(300 维度的Word2Vector 预训练中文词向量[22]和中文WoBERT 预训练模型),并采用MiniSom 库来构建SOM 模型,且将其输出层神经元结构设置为大小是10 的一维线型结构,其他参数保持库中提供的模型默认值。另外,将命名实体特征、词性特征以及簇信息特征在模型训练阶段都分别初始化为32 维的向量,双向长短期记忆网络的隐层维度都设置为128 维,全连接层维度为64 维。而为防止过拟合,在基准模型的双向长短期记忆网络与全连接层接受输入之前使用比例为0.5 的dropout 操作。整个模型在训练时的批大小为64,并使用学习率为0.001的Adam 算法来进行模型参数的优化和学习。
模型对应的预测结果都是在测试集上进行,且每个模型至少重复训练过5 次,并最终选择效果趋于平均值的模型进行效果展示与比较。此外,为评估各新闻标题生成模型的效果,本文采用的主要评价指标为微观F1 值(microF1)和压缩率(compression ratio,CR)[23],以及辅助评价指标BLEU 值[24]和ROUGE 值[25]。这4 种评价指标的计算方式分别为
(1) 微观F1 值:
3.3 模型
本文进行实验和效果评估与对比的各模型如下,在各模型中也分别实验了3 种初始化词向量的方法。其中,使用以字为基本单位的预训练模型时,会对按照分词进行“0/1”标注的数据进一步结合BIO(begin inside outside)标注法进行处理后再训练和测试模型。
(1) 基准模型:本文2.3.1 节中介绍的模型。
(2) 融入传统聚类算法的中文标题生成模型:为了比较SOM 模型的聚类效果,本文在NCSCM 框架中实验了2种传统的聚类算法(K-means算法和GMM 模型),并将这2 种算法需要提前设置的聚类数目设置为与取得较好效果的SOM 模型得到的聚类数目相同的数值(聚类数目设置为10)
(3) SOM-NCSCM:本文2.3.2 节中的方法①。
(4) 融入SOM 模型和LDA 模型的中文标题生成模型:本文2.3.3 节中的方法②~⑤,也即对NCSCM 框架的4 种改进模型。
3.4 主要实验结果
表3 列出了各模型在抽取的LCSTS 的测试数据上取得的效果。实验结果中,加粗字体对应的结果是当前评价指标下的最优值,下划线对应的结果是当前评价指标下的次优值,加星号对应的结果是当前预训练模型下各评价指标中的最优值。表4 列出了在取得较好实验结果的聚类结果中,各簇经过LDA 主题模型从训练数据中获取的具有较高概率的前10 个主题词。从各个模型在测试集上取得的效果中可以看到:
表3 所有模型在LCSTS 的测试集上的实验结果
表4 LDA 主题模型从聚类结果的各簇数据中抽取的取得较高概率的前个10 主题词
(1) 整体上看,使用以词为基本单位的WoBERT 预训练模型来初始化词向量的各模型在主要评价指标F1 值上取得的效果均较使用另外2 种预训练模型的效果好,而使用以字为基本单位的BERT 预训练模型的各模型效果能够取得最优的压缩率、BLEU 和ROUGE 值,这也就体现了BERT 预训练模型能够输出语境信息更丰富的词向量的能力。
(2) 相较于基准模型,融入了聚类结果以及主题词特征的各模型,其效果都明显提升。这说明数据中相似数据之间存在的特征信息(主题类别以及主题词信息)能够辅助相似新闻数据进行新闻标题词的选取。
(3) 采用传统聚类算法的标题生成模型在F1值、压缩率、BLEU 和ROUGE 指标上都较基准模型的效果有所提升,说明融入聚类特征能够让模型保留更多的新闻标题词,确保没有过度压缩新闻数据。
(4) 结合表4 展示的主题词信息可以看到,采用SOM 进行神经网络聚类方法得到的模型较基于传统聚类算法的模型能够取得更好效果,且在仅采用聚类编号特征信息的方法①的基础上,在方法②~⑤中融入主题词特征信息后,可以进一步提升新闻标题生成的效果。
(5) 此外,本文提出的方法②~⑤实验了融入主题词信息的不同方式。从实验结果中可看到,直接融入主题词特征信息来增强新闻句子表示的方式(方法②和③)能在各个指标上达到较优或者最优的效果,而通过更为深入和复杂的融合方式得到的模型(方法④和⑤),能够取得更佳的F1 值、BLEU和ROUGE 值,但在其训练过程中,所需训练时间更长,并因模型参数更多,更易出现过拟合。
3.5 聚类模型消融实验
为更好地观察不同SOM 聚类模型的神经元结构大小对设计的标题生成模型效果的影响,本文还进行了针对SOM 聚类模型的消融实验:
(1) 在方法④对应的SOM-NCSCM_ave 模型上融入不同SOM 神经元结构大小的聚类结果和相应LDA 主题模型获取的主题词信息,实验结果如表5所示(使用中文WoBERT 预训练模型初始化词向量),“SOM=X”对应着设置的不同SOM 神经元结构大小,也即聚类结果中簇的数量。。
(2) 从传统聚类方法(K-means 算法和GMM 模型)以及不同SOM 神经元结构大小的SOM 聚类模型得到的各簇中分别都抽取了200 条数据,计算不同聚类模型取得的轮廓系数(silhouette coefficient),结果如表6 所示。
表6 不同聚类模型的轮廓系数
当神经元结构较小时,聚类得到的簇较少,而随着神经元结构增大,聚类得到的簇数量也逐渐增多。相应地,簇较少时,新闻数据难以得到充分聚类,而簇增多时,聚类到各簇的新闻数据量就会减少,导致有些相似新闻数据被过度细分。因此,本文采用了聚类效果最佳的、神经元结构大小为10 的SOM 模型进行各模型的实验和效果对比。
3.6 举例分析
表7 举例展示了3 条测试集中的新闻数据以及3 种在测试集上取得较好效果的模型的预测输出,从表中可以直观地看到融入SOM 聚类模型与LDA主题模型对新闻标题生成效果的影响。其中,分词之间使用“/”分隔。
表7 3 条新闻内容以及3 种模型的预测结果
通过分析各模型的预测结果,可以总结出在处理该数据集上的新闻标题生成任务时现有模型的优势和存在的问题。
(1) 原标题与预测标题的质量:文献[1]也说明了其收集的新闻数据中原标题质量有好有差的情况。部分原标题包含了充分的新闻信息且语言更简练,而另一部分原标题相对更抽象、未能概括新闻内容的完整信息。如表6 中的例1 就是原标题缺少地点关键词(“甘肃/定西”)以及更充分的信息量(“296/人/重伤”),而文本设计的各模型能预测并补全其原标题中缺乏的这些关键信息;例3 则是原标题较抽象、缺乏事实相关信息的例子。此外,在依据本文实验需求进行数据标注时,也会存在少量的分词错误或分词不一致问题,如例1 中的分词错误“中寨至”,例3 中的分词不一致“冷鲜/鸡”与“冷/鲜/鸡”。而从各模型的预测结果中可以看到,相较于其原标题,本文设计的模型能生成更可读的、与新闻内容关联更大的、包含更充分的信息量的新闻标题,且在模型中更充分地融入聚类和主题词信息,能够对分词问题导致的影响具有一定的鲁棒性。
(2) 新闻数据压缩程度:即新闻标题需要对新闻内容更加精炼的表达,同时不能丢失新闻内容中的关键信息。从表6 的例子中可以看到,各模型对新闻标题词的选取,有时会保留更多的、不存在于原标题中的词语,但预测的标题在一定程度上也是可读且合理的。结合表4 的实验结果,从压缩率指标上来看,各模型在预测时,总体上仍会倾向于保留较少的词语,这导致一些关键词被遗漏,例如表6 例2中的“南海/网”,以及“在/海南”在新闻内容出现的顺序偏后,没有得到模型更多的关注而被漏标。
4 结论
针对中文新闻标题生成任务面临的大规模且高质量中文标注数据缺乏的问题,本文利用标题往往由原文中的词汇构成这一特点,将中文抽取式标题生成问题转化为序列标注问题,并提出了多种在深度神经网络中文标题生成模型中融入聚类和主题模型的方法。利用基于无监督学习的SOM 聚类模型和LDA主题模型自动挖掘出表达相同或相似主题的数据以及数据中的主题词信息,在基于监督学习的深度神经网络模型中融入这些特征,增强对新闻内容的上下文表示,从而辅助中文新闻标题生成。在互联网上公开的、缺乏人工标注分类信息的LCSTS 中文新闻数据集上的实验表明,本文提出的模型在各评价指标上的结果较基准模型都有所提升,也提高了中文标题生成的质量。未来的工作可以从提升压缩率来避免过度压缩、减少关键信息遗漏的角度出发继续研究,也可以设计人工评价策略来更细致地评估模型的效果,允许模型生成多样化的标题。