交互式问答的关系结构体系及标注

2018-06-14周小强王晓龙陈清财

中文信息学报 2018年5期

周小强，王晓龙，陈清财

(哈尔滨工业大学深圳研究生院智能计算中心，广东深圳 518055)

0 引言

近年来，问答系统进入了智能交互式问答(interactive question answering, iQA)的发展阶段，不同于自动问答中一问一答的独立问答机制，交互式问答采用的是多轮对话的问答机制。连续交互过程中的问答语句组成了一个时序性的自然语句序列，交互语句间的复杂映射关系形成了一定主题范畴下的上下文关联结构。而对于交互式问答的关系结构解析不仅有助于上下文的用户意图识别[1-2]，还可以提高面向交互式场景的问答知识抽取性能[3]。

目前，针对交互式问答关系结构的研究工作较少，研究人员一般鉴于交互式问答中的会话场景，通常会采用对话建模的方法进行交互式问答的结构分析和统计。其中，最为常见的方法是通过解析交互式问答的对话行为结构来观察连续交互过程中的用户意图变化[4]；再者就是在对话建模过程中通过引入主题模型进行交互式问答的主题结构划分。例如，Ritter等人在基于隐马尔可夫的对话模型(Hidden Markov Model, HMM)中引入LDA主题模型(Latent Dirichlet Allocation)学习主题与词语之间的概率分布，进而通过主题对话模型生成不同交互时刻的对话状态表示，实现交互式场景的结构解析[5]。交互式问答的对话结构虽然体现了交互式问答在语用或语境层次上的语句关系结构，但是没有考虑到连续问答语句在语义层面上的复杂映射关系。例如：

Q1: 此款移动电源

Q2: 可以给任何品牌

Q3: 手机冲电吗

A1: 诺基亚跟三星的多数不支持

Q4: 不支持诺基亚吗

A2: 是的亲

A3: 多数不支持

针对交互式场景中的上下文关系结构，研究人员一般沿用篇章结构理论进行交互式问答的语义角色标注和语句关系解析。例如，Afantenos等人[6]针对多人交互会话中语句关系的交叉依赖性，采用切分式篇章表示理论[7]，解析交互式场景中的语义匹配关系。然而，交互式问答的上下文关联不仅存在着诸如Q1～Q3与A1之间的语义匹配关系，也形成了类似于A3、A2之间的语义补充关系。

为此，本文针对交互式问答的关系结构，对于真实交互场景中的上下文关联进行对话行为结构和语句关系结构的统计和分析，提出交互式问答的关系结构体系；并通过交互式问答的语料标注归纳分析关系结构体系中的对话行为规律和上下文语句关系的复杂性。本文其余内容组织如下：第一部分介绍交互式问答关系结构领域的相关研究；第二部分介绍交互式问答的关系结构体系；第三部分介绍交互式问答关系结构的标注及分析；第四部分给出对应的数据评测实验；第五部分为结论。

1 相关研究概述

1.1 对话行为结构

交互式问答系统是基于会话机制的问答系统，连续交互过程中存在上下文会话语境的对话结构(dialogue structure)。一直以来，对话结构解析的研究在自然语言处理领域中就具有重要应用价值，尤其是被广泛应用于对话系统的对话归纳[8]和对话管理中[9]。考虑到交互式场景中的上下文语句关联性，许多对话结构解析方法都是假设对话中存在由一系列对话状态变化形成的关系结构，其中每个对话状态通过对应时刻的对话行为(dialogue act, DA)进行表示。对于交互式场景的对话行为结构分析，最著名的是剑桥大学研究小组提出的POMDP(partially observable Markov decision process)对话处理框架[10]，该框架依据对话语句的时序依赖性，假设对话过程中当前语句状态取决于前一语句的对话状态、前一时刻的对话行为和当前语句的表示。

针对对话行为的标注，研究人员通常采用隐马尔可夫模型(hidden Markov model, HMM)进行场景数据的对话建模[11]，并使用人工标注的训练数据进行对话模型的训练学习，用于实现交互式场景的用户行为识别。后续研究也使用深度神经网络模型学习交互场景中的对话结构，例如，通过深度卷积神经网络完成对话语句的语义表示学习，并使用循环神经网络学习对话中的上下文信息，将模型的输出向量作为对话状态的语义表示，进而实现对话结构的用户行为识别[12]。

1.2 篇章语句结构

交互式问答语句之间也存在着类似于段落文本中的篇章语句关系，自然语言的篇章关系结构是指文本表示中不同语言单元(词语、句子)之间存在的依赖关系，例如，条件关系、因果关系、约束关系和连续关系。

篇章关系结构研究主要从语言学角度出发，通过分析语言单元信息的位置、顺序、邻接关系和所处的上下文语境，提出相应的篇章结构理论，标注语言表示中的语言单元和依赖关系。其中，修辞结构理论(rhetorical structure theory, RST)是最具影响力的篇章结构理论，其主要思想是将段落文本划分为邻接语义单元组成的非重叠序列集合，并通过修辞结构树描述文本中的篇章单元之间的关系[13]。也有研究人员基于修辞结构理论(RST)，结合宾州篇章树库[14]构建篇章结构解析器，应用于文摘归纳[15]和自动问答[16]等研究领域。

对于交互式问答而言，真实交互场景中的连续问句并非独立存在，不同参与者的交互语句形成了上下文相关联的连续问答场景，通过解析交互式问答的关系结构、有利于实现基于上下文的用户问句理解。例如，Chai等[17]针对上下文相关联的问句解析，通过篇章结构解析标注连续问答过程中的语义角色，并识别问题之间的主题或焦点上的过渡，得到上下文语境中的关联历史问题，然后利用关联问题中的语义角色信息丰富当前问题的语义表示，以此提高问答系统对于用户意图的理解能力。

2 交互式问答的关系结构

针对交互式问答的结构分析，本文首先通过真实网购环境的在线客服平台*http://www.taobao.com/获取客服商家的在线聊天日志，并通过净化处理得到交互式问答的场景数据，共计32 881组；然后分别从语用和语义两个层面分析交互式问答中的对话行为结构和上下文语句关系结构，并给出对应的类别体系。

2.1 对话行为类别

从语用层面而言，对话行为体现了人们在语言表达上的目的和需求。交互场景中的对话行为结构主要表现为上下文的前后语句随着交互人员的用户意图变化，逐渐形成了语句功能上的依赖关系结构。

通过观察交互式问答语料中的语言行为，本文定义了九种交互式问答的对话行为类别，如表1所示。交互式问答的上下文关联使真实交互场景中对对话行为之间产生了一定的关联关系，主要体现为行为匹配和行为衔接。

表1 对话行为类别

(1) 行为匹配。当前语句与前述语句存在行为意图上的映射关系，一般存在于不同交互人员之间的交互对话。如例1所示，客服通过‘询问’语句Q1意图了解客户的下单时间，客户在语句A1进行了“反馈”，并通过语句A2的事实阐述意图让商家确信自己。

例1Q1: 您是1号拍的吗

A1: 是啊

A2: 十点拍的

(2) 行为衔接。当前语句与前述语句存在行为意图上的依存关系，一般是交互人员针对自己的阐述信息进行追问，意图让对方进行反馈或确认。如例2所示，客服首先通过语句A1对客户问题进行“反馈”，接着为了让客户对语句Q1中的答案进一步确认，客服通过语句A2进行试探性“询问”。

例2Q1: 问一下，物流发哪家

A1: 顺丰

A2: 您那边可以到吗

2.2 语句关系类别

真实交互场景中的上下文相关造成了交互式问答的复杂语句关系结构，形成了语义相关联的上下文语境。依据语句的交互对象不同，交互式问答中的语句关系主要包括语义匹配关系和语义补充关系。

(1) 语义匹配关系。当前语句是对于他人的信息反馈，与历史场景中的上下文语句满足语义上的匹配关系，这种关系直接体现了交互式问答的语句映射关系。如例3所示，语句A2与Q1之间，语句Q2与A1之间存在语义匹配关系；其中语句Q2是客户对于商品型号询问语句A1的信息反馈，客服人员通过语句A2给出客户问题Q1的最终答案反馈。

例3Q1: 这个录音笔的录音距离是多少米

A1: 您咨询的是哪款的

Q2: v18

A2: 录音有效距离是10～15m

(2) 语义补充关系。当前语句是交互人员对于历史场景中相关语句的语义补充，这种关系体现了交互式问答中自述信息的上下文关联关系。如例4所示，Q1、Q2和Q3三个短句是由用户错误操作形成的断裂语句，三个语句之间存在着语义补充关系，而语句A3是反馈语句A2的答案补充。

例4Q1: 此款移动电源

Q2: 可以给任何品牌

Q3: 手机冲电吗

A1: 诺基亚跟三星的多数不支持

Q4: 不支持诺基亚吗

A2: 是的亲

A3: 多数不支持

Q5: 为什么

A4: 因为诺基亚的输入电流大

交互式问答中的语句关系主要表示了交互式问答语句在语义层面上的潜在关联，在很大程度上体现了连续交互过程中的话题结构。

3 交互式问答的关系结构标注与分析

基于定义的关系类别体系和对话行为体系，本文对交互式问答语料中的1 975组交互式场景进行了交互式问答的关系结构标注，共标注了31 660个语句，分别标注了交互式问答语句的用户对话行为和上下文语句之间的语义关系，并归纳分析了交互式问答的对话行为规律和语句关系复杂性。

3.1 对话行为标注

对于交互式问答语料的用户行为标注，本文根据上下文中语句之间的行为依赖情况，定义了九种用户行为来描述在线客服问答过程中的用户行为意图，具体说明如表1所示。

课题组邀请六名标注人员进行交互式问答语句的行为标注，标注人员分成三组，每组两人。其中两组人员负责数据的标注，生成两份标注数据，并通过Kappa系数来衡量两组标注的一致性，结果为κ≈0.846；剩余的一组人员负责评价和校正两组标注数据的不一致性，不一致情况主要分布在阐述语句和闲聊语句之间。

对话行为的标注统计结果如表2所示。从表中可以发现，反馈行为在网购客服过程中的出现频度最高(30.60%)，交互场景中的反馈行为主要包括用户咨询的信息反馈、对方请求意愿的反馈，以及包含事实阐述的意见反馈。作为反馈行为的依赖行为，客服中的咨询行为主要包括客户对于商品物流信息的相关咨询和商家客服对于客户信息的相关咨询。此外，人们习惯通过阐述和闲聊的方式来衔接交互过程中的不同话题内容，因此这两种用户行为在真实环境的交互场景中占有一定比例。

表2 对话行为标注的统计结果

交互问答中的对话行为体现了交互式问答语句之间的潜在语义关系，对于交互式问答的对话行为分析有利于解读交互过程中的用户提问意图和实现交互式问答的结构划分。为此，本文采用隐马尔可夫模型(HMM)进行交互式问答的对话建模HMM=(A,B,π)，实现交互式问答的对话行为标注，并基于标注的对话行为结果给出交互式问答的对话行为结构。其中，A=[aij]N×N表示对话行为的状态转移概率矩阵，其中N为对话行为状态个数，见表1；B=[bj(k)]N×M表示问答语句表示形式的观测概率矩阵，其中M为观测集合大小，而bj(k)为问答语句的语义表示形式在隐状态j条件下为f(k)的概率，问答语句表示形式f(k)的特征包括基于词语的Unigram、Bigram和Trigram表示特征(Stolcke et al., 2000)；π=(πi)表示交互式问答的初始状态概率向量，πi大小为每种对话行为在标注数据中的所占比率。

针对交互式问答中对话行为的时序依赖性，本文在对话结构建模过程中，对于对话行为的关系权重计算会依据对话行为之间的转移方向赋予不同的关系权重vij≠vji。本文将对话行为的状态转移概率作为对话行为的关系权重，即vij=aij，并通过对话行为的状态转移概率矩阵解析出交互式问答的对话行为结构。图1是交互式问答对话行为结构的解析结果，图中每个节点表示对应的对话行为状态，节点之间的有向边权值表示对话之间的转移概率。从中可以发现交互式问答中的对话行为变化存在以下规律。

(1) 时序性。对于交互式问答的整体语境而言，连续交互过程中的对话行为存在一定的变化顺序，一般会经过问候、咨询、反馈、确认、请求和接受的行为变化过程。

(2) 依赖性。对于交互场景中的局部交互而言，不同交互对象之间的对话行为存在内部依赖关系。例如，在线客服问答中客服反馈行为通常依赖于客户的咨询或请求行为。

(3) 交替性。由于局部交互场景中对话行为的内部依赖性，不同交互对象之间的对话行为变化形成了环形结构。例如，在网购客服过程中，用户与客服会针对某一话题(如物流费用)进行反复沟通，双方会连续表现出图1中的请求、反馈和确认行为。

图1 交互式问答的对话行为结构

3.2 语句关系标注

对于交互式问答的上下文语句关系标注，本文分别针对交互场景中上下文语句间的语义匹配关系和语义补充关系进行人工标注。在标注过程中，课题组首先标注交互场景中与当前语句ID存在语义匹配关系和语义补充关系的距离dm和dc；然后分别通过距离计算ID+dm和ID+dc来定位与当前语句存在语义匹配关系和语义补充关系的句子编号(M,C)。表3所示交互式问答的上下文语句关系标注样例。

表3 语句关系的标注样例

对于语句关系标注，课题组邀请了10名标注人员完成每组场景数据的语句关系标注，标注人员分成三组(G1=4,G2=4,G3=2)，G1组和G2组负责数据的标注，生成两份标注数据，并通过Kappa系数来衡量两组标注的一致性，结果为κ≈0.805；G3组负责评价和校正标注数据的不一致性情况。标注过程中的语句关系不一致主要存在于场景中某些语句同时与多个语句存在语义关系。

如表4所示，交互式问答中的语义匹配关系与语义补充关系的分布比例为2∶1，这表明了真实环境下的交互式问答并非只存在一对一的问答匹配关系，场景中语句之间也存在一对多和多对多的复杂映射关系。因此，对于交互式问答知识库的知识表示，以往基于语义匹配关系的问答知识条目难以完整表示交互式场景中的上下文语义关联。

表4 语句关系标注的统计结果

基于标注的上下文语句关系，本文进行交互式问答的关系结构解析，抽取出每轮交互的关联语句序列，最终所标注的1 975组场景共计包括12 359个序列，并分别针对关联语句序列中的关系复杂度和语句关系距离进行统计分析，得出的以下结论。

(1) 如图2所示，交互式问答中的每轮交互并非只存在一对一的问答映射关系，其中约40.5%的交互过程同时存在复杂多重的语句映射关系。

(2) 如图3所示，交互式问答中的关系语句存在长距离上下文依赖。其中51.5%的问答知识的语句关系距离大于2，甚至存在少数问答知识中的语句关系距离大于10的情况。

图2 语句关系映射的复杂度统计

图3 语句关系的距离统计

4 数据评测

基于所标注的1 975组交互式问答场景数据，本文分别通过对话行为标注实验和语句关系解析实验来验证本文交互式问答关系结构体系的合理性。针对交互式问答关系结构体系的数据评测，本文通过二层循环神经网络构建了层次化上下文学习模型(H-RNNs)，实验中使用1 450组场景数据作为模型的训练集，其他525组场景数据作为测试集。

数据评测中的对比方法： ①针对交互式问答的对话行为标注，本文对比了隐马尔可夫模型HMM[11]、条件随机场模型CRF[18]和基于深度神经网络的行为标注模型RCNN[12]； ②针对交互式问答的上下文语句关系解析，本文对比了基于动态条件随机场的关系标注模型DCRF[19]、基于卷积神经网络的语句匹配模型CNN[20]、以及基于循环神经网络的关系解析模型RNN[21]。

对话行为标注的实验结果如表5所示，基于深度神经网络的模型RCNN和H-RNNs的对话行为解析性能明显优于浅层序列模型HMM和CRFo主要因为基于深度神经网络的句子语义建模能够更为有效地实现个性化语句的用户意图特征学习，避免了浅层机器学习模型中问答语义特征表示的稀疏性问题。

表5 对话行为标注的实验结果

语句关系解析的实验结果如表6所示，交互式问答中的语义补充关系较之于语句匹配关系更难以解析。本文通过层次化的上下文语义建模在很大程度上提升了模型H-RNNs对于交互式问答复杂语义关系的解析性能，对于语义匹配关系和语义补充关系解析的F值分别提高了11.8%和33.3%。实验结果不仅验证了上下文语境信息对于交互式问答关系结构解析的重要性，还充分说明了交互式问答中语句关系的复杂性，尤其是连续交互语句之间的语义补充关系。

表6 语句关系解析的实验结果

5 结论

本文提出了交互式问答的关系结构体系，分别从语用和语义层面上分析了交互式问答中的上下文语句间的映射关系和对话行为间的关联关系，并通过语料标注的一致性验证了关系结构类别体系的合理性。针对交互式问答的对话行为结构，归纳分析了交互式问答中对话行为的变化规律，并针对交互式问答的语句关系结构分析了问答语句序列中的关系复杂度。最后通过数据评测进一步验证了交互式问答关系结构体系的可靠性。

在此基础上，下一步的研究工作主要包括两个方面：一是构建大规模交互式问答的关系结构知识库，提供交互式问答关系解析的数据支撑平台；二是研究交互式问答的关系结构解析方法，实现面向交互式场景的问答知识抽取。

[1] Chai J Y, Jin R. Discourse structure for context question answering[C]//Proceedings of the Workshop on Pragmatics of Question Answering at HLT-NAACL. Boston, Massachusetts, USA. The Association for Computer Linguistics, 2004: 23-30.

[2] Jeong M, Lin C, Lee G G. Semi-supervised speech act recognition in emails and forums[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, EMNLP. Singapore. The Association for Computational Linguistics, 2009: 1250-1259.

[3] Huang J, Zhou M, Yang D. Extracting chatbot knowledge from online discussion forums[C]//Proceedings of the 20th International Joint Conference on Intelligence, IJCAI’07. Hyderabad, India: IEEE Press, 2007: 423-428.

[4] He Z, Liu X, Lv P, et al. Hidden softmax sequence model for dialogue structure analysis[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL. Berlin, Germany. The Association for Computer Linguistics, 2016: 2063-2072.

[5] Ritter A, Cherry C, Dolan B. Unsupervised modeling of Twitter conversations[C]//Proceedings of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, HLT-NAACL. Los Angeles, CA, USA. The Association for Computational Linguistics, 2010: 172-180.

[6] Afantenos S D, Kow E, Asher N, et al. Discourse parsing for multi-party chat dialogues[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP. Lisbon, Portugal. The Association for Computational Linguistics, 2015: 928-937.

[7] Asher N, Lascarides A. Logics of conversation[M]. Studies in natural language processing. Cambridge University Press, 2005.

[8] Wilks Y. Artificial companions as a new kind of interface to the future Internet[R]. Oxford Internet Institute/University of Sheffield, 2006.

[9] Liu J, Seneff S, Zue V. Dialogue-oriented review summary generation for spoken dialogue recommendation systems[C]//Proceedings of Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics. Los Angeles, California, USA: The Association for Computational Linguistics, 2010: 64-72.

[10] Williams J D, Young S J. Partially observable Markov decision processes for spoken dialog systems[J]. Computer Speech & Language, 2007, 21(2): 393-422.

[11] Stolcke A, Ries K, Coccaro N, et al. Dialog act modeling for automatic tagging and recognition of conversational speech[J]. Computational Linguistics, 2000, 26(3): 339-373.

[12] Kalchbrenner N, Blunsom P. Recurrent convolutional neural networks for discourse dompositionality[J]. arXiv preprint, arXiv: 1306.3584,2013.

[13] Mann W C, Thompson S A. Rhetorical structure theory: Toward a functional theory of text organization [J]. Text, 1998, 8(3): 243-281.

[14] Prasad R, Dinesh N, Lee A, et al. Attribution and its annotation in the Penn Discourse TreeBank[J]. TAL, 2006, 47(2): 43-64.

[15] Hahn U. The theory and practice of discourse parsing and summarization by Daniel Marcu[J]. Computational Linguistics, 2002, 28(1): 81-83.

[16] Verberne S, Boves L, Oostdijk N, et al. Evaluating discourse-based answer extraction for why-question answering[C]//Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Amsterdam, the Netherlands: ACM, 2007: 735-736.

[17] Chai J Y, Jin R. Discourse structure for context question answering[C]//Proceedings of the Workshop on Pragmatics of Question Answering at HLT-NAACL,HLT-NAACL. Boston, Massachusetts, USA. The Association for Computer Linguistics, 2004: 23-30.

[18] Ren H, Xu W, Zhang Y, et al. Dialogstate tracking using conditional random fields[C]//Proceedings of the SIGDIAL 2013 Conference, the 14th Annual Meeting of the Special Interest Group on Discourse and Dialogue. SUPELEC, Metz, France. The Association for Computational Linguistics, 2013: 457-461.

[19] Joty S R, Carenini G, Ng R T. A novel discriminative framework for sentence-level discourse analysis[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing Conference on Computational Natural Language Learning Joint Meeting EMNLP-CoNLL. Jeju Island, Korea. The Association for Computer Linguistics, 2012: 904-915.

[20] Hu B, Lu Z, Li H, et al. Convolutional neural network architectures for matching natural language sentences[C]//Proceedings of Advances in Neural Information Processing Systems, NIPS. Montreal, Canada. Curran Associates, 2014: 2042-2050.