结合主题特征的智能问答技术研究
2021-03-24杜中方侯跃陆浩东
杜中方 侯跃 陆浩东
(北方工业大学信息学院,北京 100144)
0 引言
随着计算机技术的发展,大量数据以文本的方式存在于互联网中。能够快速从大量文本中筛选出重要信息显得尤为重要。与传统问答系统相比,智能问答系统是一种针对自然语言处理的新型信息检索系统,允许用户用自然语言输入问句,并以自然语言形式返回,避免了需要用户输入关键词并自己筛选信息的麻烦。本文中的基本答案选择模型采用基于注意力机制的BiLSTM模型。并在此基础之上采用原注意力机制和主题注意力机制结合的混合注意力机制为深度学习模型动态补充主题特征。实验结果表明,改进后的答案选择模型优于基本模型。
1 LDA主题模型
LDA在主题模型中占有非常重要的地位,常用来进行文本分类。作为主题模型,它可以将文档集中文本的主题以概率分布的形式呈现出来。另外,L D A 采用词袋模型,即考虑一个词汇是否出现时,不考虑其出现的顺序。LDA属于无监督贝叶斯模型,训练只需要文档集和主题个数,通过自动训练即可得到概率分布。因此,在自然语言处理任务中,引入L DA 模型有助于解决语义理解难题。
一篇文档,可以看作一组有N 个词的序列,并且服从“文档-主题”概率分布,对于一个主题而言,服从“主题-词语”概率分布。L D A 模型属于生成模型,通过不断取样生成文本。某篇文档中出现某个词语的概率可以通过同一主题下词语出现的概率和同一文档下某个主题出现的概率相乘获得。
由此可定义L D A 主题模型的生成过程:选择一篇文档,从狄利克雷分布中取样生成文档的主题分布;再从主题分布中取样生成文档对某一特定词语的主题;再从狄利克雷分布中取样生成主题对应的词语分布;最后即可从词语多项式分布中得到最终的生成词语。
详细过程如下:如图1所示,若数据集中包含K个主题和T 篇文档,文档中的所有词汇都包含在有N 个词汇的词集中。θt表示生成第t个文本时抽取的“文本-主题分布”,zt,n表示本篇文本中第n 个词语的主题编号。βk表示“主题-词语”概率分布。wt,n表示生成的词汇。因为在L DA 中采用词袋模型,T 篇文档对应T 个独立的狄利克雷多项式分布共轭结构。同样地,K 个主题也分别有本身独立的共轭结构。对βk,θt,分别采样K次和T次,对文本中词wt,n采样主题多项式分布zt,n~ Multi(θt)。同时采样wt,n~Multi(βk)得到对应主题下的词汇。得到LDA模型对应的概率分布后,通过极大似然估计确定参数α和η。从而实现根据词频wt,n来推断文本集所对应的主题结构的效果。
图1 LDA 的变量关系图Fig.1 Variable relation diagram of LDA
图2 结合主题特征的深度问答模型Fig.2 A question answering model based on topic features
2 结合主题特征的深度问答模型
本文中模型的评测数据集为开放域问答数据集,LDA的训练通过Python中的gensim工具包进行相似度计算和信息检索。按照LDA主题模型的要求输入处理后的文本,设定主题数并编号。不断扫描语料库,对每一个词进行采样,求出主题,并在语料中更新,直到收敛得到topic-word分布,即为L D A 模型。问题、答案的主题特征向量化表示便是在所得主题上的分布情况。
为了在一定程度上弥补深度学习模型的不足,本文采用注意力混合机制,即在原本的注意力机制基础上引入主题特征,将主题信息应用于问答模型,达到为答案特征向量的生成动态补充相应主题信息的效果[1]。
混合注意力机制由原始注意力与主题注意力两部分组成。原始注意力采用答案选择模型中采用的注意力机制实现, 而主题注意力的实现则先利用L D A 模型得到topicq与topica即问题和答案的主题特征向量,再通过公式获取问题答案的主题注意力权重。然后通过对两个权重加权获得混合注意力机制权重。最后利用混合注意力机制对原始答案隐藏层向量进行更新并获得新的输出向量[2]。问答模型大致过程如图2所示。
3 结语
通过对基于注意力机制的答案选择模型和结合主题特征的混合注意力机制答案选择模型在M R R 、M A P 、AC C@1三个指标上进行测评,实验结果表明后者比前者在测评指标上都得到了一定的提升,说明混合注意力机制相比于原始注意力机制在拓展主题信息方面有一定的提升。