融合回答者排序得分的CQA答案摘要方法

2023-11-01刘艳超徐广义邓忠莹

陕西理工大学学报(自然科学版) 2023年5期

丁邱, 严馨 ,*, 刘艳超, 徐广义, 邓忠莹

1.昆明理工大学信息工程与自动化学院, 云南昆明 650504;2.昆明理工大学云南省人工智能重点实验室, 云南昆明 650504;3.湖北工程学院信息技术中心, 湖北孝感 432000;4.云南南天电子信息产业股份有限公司, 云南昆明 650040

答案摘要方法能够将多个冗长、质量参差不齐的答案整合为一个简短、贴合问题的摘要提供给用户,避免用户再花费大量时间和精力从冗长答案中寻找有效信息,提升用户体验。问答社区答案摘要的研究还有利于抽取高质量问答对,有利于海量问答资源的再利用[1]。

早期LIU Yuanjie等[2]对答案进行聚类,然后对每个簇中的答案进行排序,再从每个簇中抽取重要答案得到摘要结果。选取几个答案构成摘要的算法,所得摘要语序通顺、逻辑连贯,但是冗余度较高。为了降低摘要冗余度,学者们开始选取更小的文本元素,例如句子构成摘要。REN Zhaochun等[3]针对非事实类问题的答案具有多样性、稀疏性和简短性的问题,提出利用稀疏编码的摘要方法。FAN Qiaoqing等[4]为了降低摘要冗余,提出基于关键词抽取的摘要算法,利用TextRank生成关键词,再运用AMRR的思想选取摘要句。SONG Hongya等[5]使用卷积神经网络模型得到句子表示,然后使用稀疏编码框架估计句子的显著性,运用MMR算法依据句子显著性抽取句子生成答案摘要。应文豪等[6]应用卷积神经网络获取句子表示,然后利用句子相似度、位置等特征抽取摘要句。苏放等[7]发现摘要中的文字往往出现在原文本的句首位置,因此使用注意力机制给予句首更高的权重。侯丽微等[8]针对现有利用注意力机制的摘要模型多数将注意力分布到全部文本内容中,没有区分主题信息重要程度的问题,提出利用注意力机制关注主题关键词信息,融合关键词信息和文本语义信息引导摘要生成。陶兴等[9]针对学术问答社区用户生成内容的摘要任务,使用word2vec得到句子向量,使用MMR算法依据句子间的相似度选取摘要句,并提出用信息熵、相似度与信息质量评估摘要算法的性能,解决学术问答社区缺少人工生成标准摘要的困境。DENG Yang等[10]提出分层比较聚合的方法,经过词级与句级比较聚合后得到问答的最终表示,再使用以问题为驱动的序列抽取器抽取摘要句。YADAV等[11]利用基于相关性的排序模型T5[12]选取相关性较高的句子构成答案摘要。

直接对答案句进行特征抽取与建模,在一定程度上改善了答案文本语言信息稀疏的问题,但要充分获取到答案句中丰富的语义信息有一定难度。现有方法仍然存在对答案句建模不够充分,未能获取到句子深层语义信息的问题。此外,现有方法主要围绕答案与问题、答案与答案间交互建模选取摘要句,没有考虑回答者相关因素对摘要的影响。而根据回答者历史表现能够判断该用户提供的答案是否是一个潜在的高质量回答,有利于摘要方法找出高质量答案句,提升摘要质量。为了充分获取答案句、问题文本的深层语义信息,并在摘要过程中融入回答者的相关信息,进一步改善答案摘要质量,本文提出融合回答者排序得分的CQA答案摘要方法(CQA answer summarization method integrating respondents ranking scores,ASIED)。

1 模型构建

综合句子相关性、句子新颖性和回答者排序得分选取摘要句,既考虑了答案与问题、答案与答案间的关系,还融入了回答者相关信息帮助摘要模型找出潜在优质回答。本文方法主要包含4个部分:预处理,句子编码,句子评分,选取摘要句。图1是本文方法的总体架构。

图1 融合回答者排序得分的CQA答案摘要方法总体架构

1.1 预处理

预处理阶段需要将问题对应的所有答案进行句子划分,得到答案句集合,并整理答案对应的回答者列表,以便后续部分的实现。

假设问题q拥有m个答案,那么对应回答者列表即为(u1,u2,…,um),对问题下的m个答案进行句子划分得到答案句集合S=(S1,S2,…,SN),其中N为m个答案划分后句子的数量。

1.2 句子编码

直接对句子进行建模,在一定程度上对答案文本语言信息稀疏的问题有所改善,但是要充分获取到句子的深层语义信息还是有一定难度。

RoBERTa[13]是BERT的一个变体,从模型的具体细节、训练策略和数据3个层面对BERT进行了优化。原始的RoBERTa采用的是字覆盖的方法训练中文语料,字覆盖的方式会忽略中文分词的作用,基于全词覆盖(Whole Word Mask)的中文预训练模型RoBERTa-wwm[14]解决了这一缺陷。该模型由多层Transformer构成,是一个深度双向语言表征模型,输入文本序列时还融合了每个token的位置信息,能够捕获文本中字符的上下文信息,可获取更为丰富的深层特征。使用RoBERTa-wwm获取句子每个字的字向量,然后再对句子的字向量矩阵进行平均池化得到句向量作为句子的最终表示,解决了句子深层语义信息难以获取的问题。平均池化就是对句子的字向量矩阵进行融合,将其降维为句向量,并保留了句子中的所有信息。

1.3 句子评分

受多文档摘要方法[15]和单文档摘要方法[16]启发,综合句子相关性、句子新颖性和回答者排序得分选取摘要句,使摘要方法性能得到提升。句子相关性有利于找出那些贴近问题,与问题内容相关的答案句。句子新颖性有利于降低答案摘要冗余度,即在句子冗余时分配低分,在句子新颖时分配高分。回答者排序得分,则从用户本身出发考虑其历史表现情况,若其在问题对应领域有一个较好表现则得分高,反之则得分低。用户在问题领域中有较好的历史表现,极有可能为该问题提供高质量的答案,则该用户提供的答案应该给予更多关注。

1.3.1 句子相关性得分

1.3.2 句子新颖性得分

为了降低摘要冗余度,使用句子新颖性得分给予那些高冗余的句子低分,即那些与其他句子重复度较高的句子将获得低分,反之则获得高分。要计算句子Si新颖性得分,首先需要计算句子Si与其余答案句的相似度,计算公式为

式中,sim(Si,Sj)表示答案句Si与Sj的相似度。

如果句子Si与其余句子求相似度,所得最大相似度sim(Si,Sj)小于阈值τ,则句子Si为新颖的。若最大相似度大于阈值τ,并且句子Si与问题q相关性更高,则句子Si也为新颖的。计算如下:

其中,l是其余句子中与句子Si求得最大相似度的句子索引。为了确定阈值τ,使用50对句子进行相似度计算,其中25对为相似的,25对为不相似的。通过实验发现相似句子对的相似度范围为[0.82,0.97],其均值为0.92,不相似句子对中最大相似度为0.84,故将阈值τ设为0.92。

1.3.3 回答者排序得分

如果回答者在问题领域拥有不错的历史表现,那么回答者提供的答案极有可能是一个高质量的答案,摘要过程中应该给予有较优表现的回答者的答案更多关注。专家推荐方法[17]能从社区中为新问题找出潜在的优质回答者,得到一个回答者排序列表,排序靠前的用户拥有较高专业度。使用专家推荐模型DUM[18]对问题的回答者进行排序,得到回答者排序列表,即依据回答者们的历史表现,判断他们提供的回答是否为一个潜在的优质回答。

使用专家推荐模型将问题q下的回答者(u1,u2,…,um)进行排序,获得回答者排序列表(u2,um,…,u1)。依据排序列表求出回答者排序得分,

式中,ui为问题q的第i个回答者。p(ui)为回答者ui在排序列表中的位置,起始值为1。m为问题q回答者的数量。scoreSort(ui)的取值范围是[0.5,1],之所以将其最小值设置为0.5,是因为排在靠后的回答者提供的答案也可能是不错的答案,只是靠前的回答者提供的答案是优质回答的概率更大。

1.4 选取摘要句

计算得到句子相关性得分scoreContR(q,Si)、句子新颖性得分scoreNov(Si)和回答者排序得分scoreSort(ui)后,综合3个评分标准计算句子最终得分,计算公式为

scoreFinal(Si)=α·scoreContR(q,Si)+β·scoreNov(Si)+γ·scoreSort(ui),

式中,ui就是为问题q提供答案句Si的回答者,α,β,γ∈[0,1],α+β+γ=1,通过α、β、γ依照3个评分标准在摘要过程中的重要性为其分配不同的权重。

使用MMR算法依据句子最终得分迭代抽取句子构成摘要,直到达到摘要长度上限。抽取摘要句的MMR算法为

式中,q指要进行答案摘要的问题,S是问题q下所有答案进行句子划分后所得的答案句集合,Si是答案句集合S中还未被选取的句子;C为已抽取得到的摘要句集合,c是摘要句集合中的一个摘要句,Clen为摘要长度上限;λ为一个常数,取值范围在0到1之间;sim(Si,c)是句子Si与已抽取的摘要句c的相似度。

迭代抽取答案句拼接得到摘要结果,直到达到摘要长度上限时停止抽取句子。利用MMR算法思想选取摘要句,有利于保证摘要的多样性。

2 实验及结果分析

2.1 数据集

本文搜集整理了一个天涯问答社区(http://wenda.tianya.cn)的中文数据集。该数据集包含问题、答案、提问者、回答者、提问时间、回答时间、回答是否为最佳答案、回答收到的点赞量等信息。对该数据集上符合答案摘要任务的问题进行整理,人工生成参考摘要,对本文答案摘要方法进行验证。

在本文数据集上对专家推荐模型DUM进行训练。整理1 000个有参考摘要的问题,验证本文方法有效性。数据集的大致情况见表1,其中DUM是指用于训练微调专家推荐模型的数据规模,而ASIED是指用于确认本文方法涉及的超参值和性能验证的数据规模。

2.2 评价指标

使用自动文摘常用的ROUGE评测方法来评价摘要质量,具体为ROUGE-1、ROUGE-2和ROUGE-L:

式中,Rs指参考摘要,As指自动摘要结果,n代表n-gram的长度,Countmatch(gramn)指摘要结果与参考摘要匹配的n-gram个数,Count(gramn)指参考摘要中包含的n-gram个数,LCS(As,Rs)表示摘要结果与参考摘要的最长公共子序列长度,len(Rs)表示参考摘要长度。

2.3 实验设置

实验基于Pytorch深度学习框架实现,句子编码使用RoBERTa-wwm哈工大开源的Chinese-RoBERTa-wwm-ext-large(https://github.com/ymcui/Chinese-BERT-wwm)这个版本,编码所得句子表示向量维度d为1 024。经统计发现,人工生成的1 000个问题的参考摘要平均长度为72.78个字,但人工生成的参考摘要对用户冗长的表达进行了提炼,为了保证摘要文本的多样性,将答案摘要的长度限定为100个字,即超过100个字时停止抽取句子。

在计算句子最终得分时,使用α、β、γ为三个评分标准分配不同的权重,为了得到较佳的权重分配,计算α、β、γ不同组合所得的ROUGE值,选取使得ROUGE值最大的组合作为α、β、γ最终取值。α,β,γ∈[0.2,0.4,0.6],α+β+γ=1一共可以得到6组可行的组合。从人工生成参考摘要的问题中随机选取800个进行实验,在确定α、β、γ哪一组取值较优的实验中将λ取一个固定值。实验发现当α=0.6,β=0.2,γ=0.2时,ROUGE取得最大值,因此将其作为较佳的权重分配进行后续的实验。不同组合所得实验结果见表2。为了确定MMR算法中λ取值,对λ取0.1～0.9不同值进行实验,实验结果见表3。实验发现λ为0.7时ROUGE取得了最大值,因此将λ设为0.7。

表2 α、β、γ不同取值实验对比结果

表3 λ不同取值实验对比结果

2.4 对比实验

2.4.1 不同句子编码方法对比实验

word2vec:使用word2vec获取句子的词向量矩阵,然后将句子的词向量矩阵求平均得到句子表示。

Skip-Thought[19]:利用中心句预测上下文的句子,该模型包含编码器和解码器两部分,皆是GRU模型。使用Skip-Thought的编码器对句子进行编码,得到句子表示。

InferSent_GloVe[20]:使用GloVe获取词向量,在数据集SNLI(Stanford Natural Language Inference)上对LSTM、GRU等不同结构进行训练。选用该文献中表现最优的Bi-LSTM结合Max-pooling实现句子编码进行对比实验。

ELMo[21]:ELMo克服了word2vec的缺陷,根据文本语境对多义词进行理解,依据输入序列上下文动态推断每个词的词向量。使用ELMo获取词向量,然后对句子的词向量矩阵求平均作为句子表示。

XLNet[22]:XLNet利用自回归语言模型本身的特点克服Bert的缺点,主要采取排列语言模型、双流自注意力和循环机制3个机制获取双向上下文信息。

为了验证与基于word2vec的句子编码方法相比,使用RoBERTa-wwm对句子编码能更好捕捉到句子的深层语义信息,分别使用word2vec、Skip-Thought、InferSent_GloVe、ELMo、XLNet、RoBERTa-wwm实现对句子编码获取问题和答案句表示,然后再按照本文方法选取摘要句进行实验。不同句子编码方法实验对比结果见表4,其中加粗的RoBERTa-wwm为本文句子编码方法。

表4 不同句子编码方法实验对比结果

表4的实验结果显示RoBERTa-wwm编码方法表现较好,较word2vec、Skip-Thought、InferSent_GloVe、ELMo、XLNet这几个对比方法在ROUGE-1评价指标上分别提升了12.75%、12.14%、11%、12.41%、5.1%。可见与基于word2vec的句子编码方法相比,RoBERTa-wwm能捕捉到句子更丰富的深层语义信息。使用word2vec对句子进行编码,只考虑到词局部的信息,忽略了上下文信息,使得获取到的句子语义信息比较单调不够全面。Skip-Thought、InferSent_GloVe分别基于GRU和Bi-LSTM对句子进行编码,考虑了上下文信息,但实际上是按顺序推理的,没办法同时考虑到另一个方向的数据,使得获取到的语义信息还是不够充分。ELMo可以说是动态的获取词向量,能够依据词的上下文语境理解词的语义,一定程度上解决了一词多义的问题,但其本质上还是基于LSTM实现的,获取的语义信息还是不够深层和全面。BERT模型利用Transformer进行编码,综合考虑两个方向的信息,并且能学习到文本更深层的语义信息。XLNet可以说是BERT、GPT 2.0和Transformer XL的综合变体,将三者的优点集于一体,尤其是在长文本NLP任务上较BERT的性能优势会更为明显。RoBERTa-wwm不仅保留了RoBERTa本身的优势,并且使用mask词的方法能更好地捕捉词与词的边界关系。表4的实验结果也表明使用RoBERTa-wwm对句子进行编码,能获取到更为丰富的语义信息,提升句子相关性计算的准确度,改善答案摘要质量。

2.4.2 不同答案摘要方法对比实验

MMR[23]:依据句子和问题的相关性,利用MMR算法迭代选取摘要句。

HSCM[10]:HSCM利用分层比较聚合的方法学习答案与问题、答案与答案间的交互,得到问题和答案句表示,使用以问题为驱动的序列器抽取摘要句。

T5_sum[11]:利用基于相关性的排序模型T5依据答案句与问题的相关性排序答案句,选取靠前的句子构成答案摘要。

BART[24]:BART是基于Transformer吸纳BERT和GPT优点做出改进的方法,其Seq2Seq架构和预训练任务使得该模型可直接用于摘要任务。将每个原始答案输入BART得到其对应摘要,级联所得摘要作为摘要结果。

为了验证本文方法在摘要任务中的性能表现,将ASIED与MMR、HSCM、T5_sum、BART进行实验对比,对比结果见表5。

表5 不同答案摘要方法实验对比结果

表5的实验结果表明本文方法ASIED在问答社区的答案摘要任务中取得了不错表现,较MMR、HSCM、T5_sum、BART几个摘要方法在ROUGE-1评价指标上分别提升了11.45%、7.12%、3.56%、2.16%。传统的MMR摘要方法依据句子与问题的相似度选取摘要句,考虑了答案句与问题的关联,能够选取出贴近问题的摘要句,但是简单的利用word2vec得到句子表示,没能捕捉到句子深层的语义信息,使得摘要的质量受到影响。HSCM模型不仅考虑了答案与问题间的关系,还进一步考虑了答案与答案之间的关系,进一步提升了摘要方法的性能。但是答案句与问题语言稀疏却拥有丰富的语义信息,HSCM采用分层比较聚合获取到的语义信息还是不够充分,而使用RoBERTa-wwm模型能捕捉到句子更深层、更丰富的语义信息。ASIED在摘要过程中还融入了回答者的相关信息,进一步改善了摘要质量,较已有较优表现的T5_sum和BART模型在ROUGE评分上皆有所提升。较T5_sum在ROUGE-1、ROUGE-2、ROUGE-L上分别提升了3.56%、3.19%、2.26%,较BART在ROUGE-1、ROUGE-2、ROUGE-L上分别提升了2.16%、1.85%、0.65%。

2.5 消融实验

综合句子相关性、句子新颖性和回答者排序得分选取摘要句,考虑了答案与问题、答案与答案间的关联,并利用专家推荐方法对回答者在对应问题中是否有潜力提供优质回答进行评估,帮助摘要模型选取高质量答案句。为了验证句子新颖性和回答者排序得分的有效性进行了消融实验,实验结果见表6。表中ASIED-Nov表示仅依据句子相关性和回答者排序得分选取摘要句,不考虑句子新颖性;ASIED-UOrder表示仅依据句子相关性和句子新颖性选取摘要句,不考虑回答者排序得分。

表6 消融实验对比结果

由表6发现去除句子新颖性和去除回答者排序得分ROUGE评价指标均有所下降,去除句子新颖性这个标准后ROUGE-1下降了2.57%,选取的摘要句冗余度较高。去除回答者排序得分这个标准对摘要结果影响更大,ROUGE-1下降了4.1%。可见句子新颖性和回答者排序得分这两个选取标准是有效的,有利于降低摘要的冗余度,找出潜在的高质量答案句。句子相关性是毋庸置疑的,利用该标准才能选取出贴近问题的答案句。

3 结语

为了进一步改善答案摘要的质量,降低摘要冗余度,提出融合回答者排序得分的CQA答案摘要方法。采用RoBERTa-wwm结合平均池化对问题和答案句进行编码,解决了难以获取句子深层语义信息的问题。使用拥有较优表现的问答社区专家推荐方法DUM依据回答者历史表现对回答者进行排序。再根据排序结果计算回答者排序得分,与句子相关性、句子新颖性相结合作为选取摘要句的最终依据。综合考虑了答案与问题、答案与答案间的关联和回答者的相关信息,有效地改善了答案摘要质量。实验表明,在摘要过程融入回答者排序得分,有利于找出高质量答案句,使用RoBERTa-wwm编码句子能够捕获深层语义信息,提升句子相关性计算的准确度。抽取句子级联得到摘要结果,摘要逻辑连贯性还有待优化,在未来的研究工作中考虑对这一缺点进行深入研究,寻求改进的方法。此外,问答社区中用户的表达不是很规范,用语存在错误,例如少字多字、错别字等,这些错误对摘要结果会产生极大影响。未来将考虑引入社交媒体规范化方法,对答案摘要之前的用户文本进行规范化处理。