基于知识图谱波纹网络的人机交互模型

2022-02-24黄宏程

电子与信息学报 2022年1期

黄宏程廖强胡敏陶洋* 寇兰

①(重庆邮电大学通信与信息工程学院重庆 400065)

②(重庆市通信软件工程技术研究中心重庆 400065)

1 引言

人类的学习、生活、工作等经历会在大脑中存储为关联方式的记忆，可以把这些记忆视为个人的背景知识[1]。人与人交流的过程可以看作背景知识不断被唤醒的过程，交流过程中某一方在情感上表现出强烈的沟通欲望通常会使得对话持续进行。相应地，在人机交互过程中人类也自然希望能与一个有知识且富有情感的机器人沟通[2]。如何使机器人在人机交互过程中能够像人类一样运用背景知识实现情感上的交流是众多学者关注的重点。

近年来，许多有价值的人机交互情感模型和融入背景知识模型相继提出。文献[3]考虑参与人表情变化会对机器人产生外部情绪刺激，提出了一种连续认知情绪调节模型，能够赋予机器人一定程度的情绪认知能力。文献[4]为实现智能的情感表达，提出一种能使机器人产生与参与人一致情感状态的情感生成框架，可以使交互双方在对话过程中产生情感上的信任。文献[5]将实际生活中的真实情感状态映射到PAD(Pleasure-Arousal Dominance)3维空间，3维数轴上每一维的数值用心理学属性度量，该PAD情感空间模型用来表征机器人不同的连续情感状态。文献[6]先通过TFIDF(Term Frequency—Inverse Document Frequency)选择与对话上下文相关的非结构化文本的外部知识，再利用RNN(Recurrent Neural Network)编码器进行知识表示，最后结合上下文语义和外部知识计算候选回复的得分，进而确保机器人回复的准确性。文献[7]提出将常识知识图谱存储在外部记忆模块，通过Tri-LSTM(Triggered Long Short-Term Memory)模型对查询、回复以及常识进行编码，再将相关常识与检索式对话模型相结合，得到更加准确的机器人回复，从而解决人机交互中背景常识缺失的问题。文献[8]提出一种基于深度神经匹配网络的学习框架，利用外部知识对检索式对话系统的回复集进行排序，并且通过伪关联反馈和问答对知识进行提炼，将外部知识引入到深度神经模型中，较好地提升了人机交互中上下文之间的连贯性。

以上研究虽在一定程度上考虑了人机交互过程中的情感状态和外部知识两大因素，但有的只考虑单轮交互影响而忽略了上下文连贯性，或者只考虑了上下文中情感状态对于机器人回应的影响，又或者只考虑了上下文中外部知识对于机器人回复的影响。针对当前人机交互模型中机器人存在背景知识缺失、回复连贯性不高的问题，本文通过引入外部知识图谱[9，10]作为机器人的背景知识，模拟人与人交流过程中背景知识的唤醒过程，同时分析参与人的情感友好度，提出一种基于知识图谱波纹网络的人机交互模型，旨在提升机器人在人机交互过程中的情感友好度与连贯性。

2 问题分析

2.1 问题描述

当交互双方围绕某个话题进行对话时，随着对话的持续，涉及话题相关的内容逐渐增多，双方的背景知识会逐渐唤醒。在当前的人机交互系统中，参与人是交互过程中拥有背景知识的一方，进行多轮对话时，对话系统如果没有引入新内容或者引入的内容关联性不够或者在情感上并不是参与人所期望的，将会很大程度上降低参与人的对话意愿，从而导致对话结束。本文引入知识图谱作为交互系统的背景知识，模拟人与人交流，使交互系统充分考虑参与人情感状态，持续提供在情感和内容上关联的对话内容。

2.2 问题形式化

考量因素：

(1) 人机交互情感关系评估：人机交互作为一个连续的交互过程，参与人对内容的感性喜爱程度影响着对话的持续性。基于此，先对人机对话的情感交互友好度进行评估，在交互过程中参与人的情感状态整体呈上升趋势认为是处于良好的交互关系。

(2) 人机交互内容关系评估：人与人的交流过程是背景知识不断唤醒的过程，交流内容之间存在关联性。基于此，对人机对话内容进行关联性评估，在知识图谱上发现参与人潜在的感兴趣的内容。

3 人机交互情感友好度

人机交互是一个连续的过程，当前的情感状态不仅与当前交互对话内容有关，而且与历史交互会话内容也存在关联性[11]。结合当前和历史交互会话内容定义人机交互情感友好度R(k)的更新函数为

其中，R(k)为第k次人机交互情感友好度，取值范围为[0， 1]，其取值越小表示情感交互状态越差，相反，其取值越大表示情感交互状态越好。特别地，R(0)初始值状态取值为0.5，表示人机交互关系不确定。W(k)为交互输入情感评估值，初始值为0，取值范围[—1， 1]，当其取值为正时，表示参与人的情感状态为积极，反之，取值为负时，表示情感状态消极。C(k)为人机交互情感确信度，初始值为0，其表示的是连续积极情感或者消极情感所产生的加强作用。即前后两次对话情感倾向相同时，C(k)的值增大，情感确信度增加；前后两次对话情感相异时，确信度减小。以下将对W(k)与C(k)进行具体定义。

图1 人机交互过程中内容输入输出示意图

3.1 人机交互情感评估

为了更好地进行情感的量化与计算，依据文献[12]将交互输入情感量化为具有数值大小的向量。在PAD情感空间内，情感向量由6种基本情感状态组成：高兴、惊讶、厌恶、生气、恐惧、悲伤。定义如下

3.2 人机交互情感确信度

交互情感确信度C(k)与交互情感评估值W(k)密切相关，连续的积极情感评估值会正向促进情感确信度，使得人机交互状态更加积极；而连续的消极情感评估值则会反向促进情感确信度，使得整个交互状态更加消极。情感确信度的评估过程比较符合人与人实际交流的心理过程。

4 知识图谱波纹网络交互模型

4.1 知识图谱波纹网络

知识图谱实现了客观世界从字符串描述到结构化语义描述，是对客观世界的知识映射，以一种图结构的形式描述客观世界中实体之间丰富的事实和连接。知识图谱的一种通用表示方式为三元组，即G=(H，R，T)，其中H={e1，e2，...，eN}是知识库中头实体的集合，N为实体的数量；R={r1，r2，...，rM}表示知识库中关系的集合，M为实体关系的数量；T表示知识库中尾实体的集合，且T ⊆H×R×H。H(head)，R(relation)，T(tail)组成三元组，即头实体-关系-尾实体，一个最简单的三元组连接来自图2：集结号-电影题材-战争，描述的事实为《集结号》是战争题材的电影。

知识图谱视角下电影《集结号》的三元组关联关系如图2所示，《集结号》直接关联着“王中磊”(制片人)，“张涵予”(主演)，“战争”(题材)，“冯小刚”(导演)；另外，间接关联的演员张涵予还主演过电影《唐山大地震》和《湄公河行动》等；其中电影《唐山大地震》视为电影《集结号》某些关联关系下的2级关联。知识图谱中这种复杂的关联关系提供了更加深入和宽泛的内容视角，其对应着现实客观世界的关联性，为人机交互系统中参与人对话内容的扩展提供了先决条件。

图2 电影“集结号”的知识图谱视角

图3展示的是对话实体激活参与人潜在实体的过程，其中实体A和B为某次人机交互过程中参与人对话内容所涉及实体。实体A一级关联的实体编号为1， 4， 5，实体B一级关联的实体编号为1， 8，9，其中实体A与实体B公共的一级关联实体编号为1，涉及实体如图3(b)中的阴影部分。实体A的2级关联的实体编号为2， 3， 6， 7，实体B的2级关联的实体编号为2， 7，其中实体A与实体B公共的2级关联实体编号为2， 7，涉及实体如图3(c)中的阴影部分。以此推理，可以得出实体A或B更低关联等级(关联关系越低，关联等级的级数越大)的实体编号。参与人潜在的感兴趣的内容被对话实体所激活，并沿着知识图谱层级关系由近及远、由强到弱进行传播，随着关联实体级数增大，用户兴趣度减弱[17]，对应图3中的阴影部分。此过程与水波波纹由近及远、由强到弱的传播状态类似；水波波纹在由近及远的传播过程中振幅会逐渐减弱，同样对话实体对关联等级较低实体的影响逐渐变小，并且在波纹传播过程中某些实体处会产生干涉叠加效应进而突出某些实体，即公共的关联实体。最后，结合参与人情感倾向对其感兴趣的实体内容进行最优选择。以上整个过程描述了本文所提基于知识图谱波纹网络的人机交互模型。

图3 知识图谱波纹网络传播模型图

为了运用知识图谱挖掘出参与人潜在的感兴趣的内容，通过实体连接(entity linking)[13，14]对参与人对话内容进行实体提取与消歧，获取到交互过程中的对话实体集，再将实体集嵌入到知识图谱波纹网络中。对知识图谱波纹网络中的相关集合进行如下定义。

基于知识图谱波纹网络的传播模型，对第k次对话中获取到的参与人对话实体集合定义为

4.2 知识图谱波纹网络交互模型构建

在每一轮人机交互过程中，情感友好度是通过情感状态空间坐标位置集合和协方差矩阵集合之间的矩阵运算得到的，其时间复杂度为常数阶O(1)；在基于知识图谱波纹网络进行最优实体内容选择时，对话内容实体数量为常数级且波纹传播涉及实体数量也为常数级，那么波纹网络传播时间复杂度为常数阶O(1)。考虑人机交互的轮数为n，那么本文模型的时间复杂度为O(n)。

表1 基于知识图谱波纹网络的人机对话模型构建

5 实验设计与结果分析

5.1 实验框架介绍

为了对本文提出的人机交互模型进行有效的实验对比，将Python中的ChatterBot扩展成本文所提模型，并以文本聊天形式进行仿真。图4为本文模型流程框架，其中实线部分为ChatterBot框架，虚线部分为扩展内容。情感友好度是通过人机交互过程中的手势、语音、面部表情等进行计算得到的。

图4 基于知识图谱波纹网络的人机交互模型流程框架

5.2 实验数据及对比模型

数据来源于2 0 1 8 年N L P C C 任务为O p e n Domain Question Answering的对话语料，语料为中文对话问答。语料共计有24479对问答，随机取2500对问答作为验证集，再随机取2500对问答作为测试集，剩余问答对作为模型训练集。

本文选取以下4个模型进行对比实验：

(1) 文献[18]是基于LSTM (Long Short-Term Memory)的Seq2Seq (Sequence to Sequence)的自动生成回复的对话模型。

(2) 文献[19]是根据置信度高低进行答案排序输出的ChatterBot交互模型。

(3) 文献[20]是考虑参与人交互过程中的“感同身受”，选择在情感上相似的回复作为应答，从而实现有情感MECs对话认知模型。

(4) 文献[6]是将常识知识存储在外部记忆模块，将相关常识整合到检索式对话的ConceptNet认知模型。

5.3 评价指标

采用衡量排序结果的MRR(Mean Reciprocal Rank)和MAP(Mean Average Precision)两个衡量指标对模型回复准确率进行客观评测，其中MRR反映的是整体准确性，而MAP反映的是单值准确性。定义为

为进一步验证模型的有效性，采用人工评测方法，按要求征集40名志愿者与不同认知模型聊天机器人进行交互会话。首先，从时间维度上衡量各个模型的有效性，计算人机交互对话时长；然后，让志愿者根据Fluency和Sentiment评价标准进行打分，评价标准如表2所示。

表2 Fluency和Sentiment评价标准

5.4 实验结果分析

为计算MRR和MAP两个客观评测指标的结果，取标准回复集数量为n=10，即标准回复集中有10个候选回复，计算结果如表3所示。

由表3可见，与其他4个对比模型相比，本文模型取得了较好的结果，主要是因为本文所提模型在对候选回复集进行排序时考虑了情感友好度和内容友好度，不仅从主观情感的友好度上约束了回复内容，还从客观实体的连贯性上约束了回复内容。其中，MECs和ConceptNet模型对比Seq2Seq和ChatterBot模型时取得了较好结果，原因是MECs考虑了交互过程中的感同身受，ConceptNet引入了外部知识图谱作为常识知识，二者分别考虑了情感因素和背景知识因素使得模型表现更好。Seq2Seq评分最低的原因是在交互过程中顾及安全性等因素产生很多无意义的回复。客观评测验证了本文模型能够有效提升回复准确率。

表3 不同认知模型的客观评测结果表

人工评测考虑不同年龄和性别人群对对话系统交互效果评估的影响，邀请不同年龄和性别的40位志愿者与各个模型进行交互，统计其交互轮数与交互时间，统计结果见表4，再将40位志愿者按不同性别组和不同年龄组对Fluency和Sentiment的满意度进行打分。性别组为男、女各20名，分别为组1和组2，统计结果见表5。年龄组中19～23岁为组3，24～28岁为组4，其中每个年龄各有2名女性与2名男性(19～22岁为在校本科生、23～25岁为硕士研究生、26～28岁为社会人士)，统计结果见表6。

从表4可知，与其他模型相比，志愿者与本文模型在交互轮数和交互时间上均表现较好；从表5和表6可知，不同性别组和不同年龄组志愿者在Fluency和Sentiment上对本文模型的打分都高于其他模型。人工评测从侧面验证本文模型兼顾内容连贯性与情感友好度，能够有效地延长人机交互对话轮数与时间。

表4 志愿者与模型交互轮数与时间统计

表5 性别组志愿者对各模型Fluency和Sentiment打分统计

表6 年龄组志愿者对各模型Fluency和Sentiment打分统计

6 实验讨论

为进一步分析情感友好度和内容友好度对模型的实际影响，对式(15)即yv=αR(k)+βy中约束因子α，β进行讨论，因为存在β=1-α的关系，所以只需讨论α在[0，1]之间的取值对于模型的影响。仍采用客观评测计算MRR和MAP两个指标作为衡量，且同样取标准回复集数量n=10来计算两个指标值。

从图5(a)和图5(b)可知，当α趋近于0时，本文模型在MAP和MRR客观评测上与ChatterBot模型和MECs模型相比取得较好结果，但与Concept-Net模型相比相差较小，其原因在于此约束条件下本文模型与ConceptNet模型均只考虑了内容连贯性。当α趋近于1时，本文模型在MAP和MRR客观评测上与ChatterBot模型和ConceptNet模型相比同样取得较好结果，但与MECs模型相比相差较小，其原因在于此约束条件下本文模型与MECs模型均只考虑了情感因素。当α取值越趋近于0.5时，本文模型在MAP和MRR客观评测上与对比模型相比均取得较好结果，因为此时兼顾情感友好度和内容友好度，能够有效提升回复准确率。

图5 不同模型下MAP与MRR自动评测结果

7 结束语

人类的学习、生活、工作等经历会在大脑中存储为关联方式的记忆，可以把这些记忆视为个人的背景知识，人与人的交流过程则是在情感因素影响下对局部关联背景知识的唤醒过程。本文提出的基于知识图谱波纹网络的人机交互模型，将知识图谱视为机器人的背景知识，利用波纹网络模拟人与人交流过程中对局部关联背景知识的唤醒，提取出参与人潜在的感兴趣的实体，并综合考虑参与人主观情感友好度，对机器人对话回复进行最优选择。对比实验结果表明本文所提模型能使机器人在人机交互过程中的情感友好度和连贯性得到有效提升。本文人机交互模型模拟真实的人与人交流过程，为实现更加自然且智能化的人机交互系统提供了有益的探索。