基于指针的深度学习机器阅读理解
2018-01-15朱海潮刘铭秦兵
朱海潮+刘铭+秦兵
摘要: 關键词: 中图分类号: 文献标志码: A文章编号: 2095-2163(2017)06-0157-04
Abstract: Understanding text is the ultimate goal for machine reading comprehension task. The understanding ability of machines can be evaluated by the accuracy of question answering for specific document. The paper proposes a deep learning model and applies it to span extraction based machine reading comprehension. The model encodes the document and question with Recurrent Neural Networks and then performs information interaction with attention mechanism. Finally, the answer can be selected by predicting the start and end position in the source document. The proposed model performs better than manual features based conventional methods and obtains 53.1% F1 and 39.6% EM.
0引言
自然语言理解作为一个终极的人工智能目标,极具现实挑战性,而且让机器理解语言的意义也是非常重大的。从学术研究的角度来看,这是学术研究的最前沿,代表着机器在当今时代可能达到的最高智能水平。从工业界的视角来看,对搜索引擎、聊天机器人、私人机器助手等重要产品都有直接的应用创新进展,拥有可产生巨大商业价值的发展空间。近年来,深度学习发展迅速,以深度学习为基础的模型在图像处理、自然语言处理、语音识别等研究领域已经取得了广泛的应用和良好的效果,并且其自动抽取特征的能力极大地降低了人工的参与。
阅读理解作为常见的一种题型,对于绝大多数人来说都不陌生,在中考、高考的语文和英语科目中非常普遍。机器阅读理解任务类似地包含原文、问题和答案,目标就是让机器阅读给定的原文和问题,得到正确的答案,与面向人类的阅读理解要求是一样的。本文以片段抽取型机器阅读理解数据集SQuAD[1]为基础,应用深度学习方法,使用多层基于注意力的方式对原文和问题进行交互,最后通过类似PointerNetwork[2]的机制来预测答案的边界。
1基于深度学习的实验方法
随着计算能力的不断提升,基于深度学习的复杂机器阅读理解模型是现在的主流方法,其效果已经超过基于特征工程的传统方法和浅层的深度学习模型,并且注意力机制的引入更是显著可观地提高了深度学习模型的效果。
2实验数据与评价指标
2.1实验数据
SQuAD数据集由Rajpurkar[1]发布在EMNLP2016上,获得该会议2016年的最佳资源奖,是机器阅读理解领域里颇具代表性的大规模数据集,其中每个样例包括原文、问题和答案,其中问题一定与原文相关,并且答案是原文中的一段文本,如图1中加粗部分所示。
研究中,采用众包的方式基于536篇Wikipedia文本构建了107 785个问答对,数据集的主题也很丰富,包含音乐名人、抽象概念、历史事件等类别。质量和难度上较之前数据集更呈明显优势,而且也更具有挑战和研究价值。
由于该数据集的测试集并不公开,基于方便实验的考虑,本文将开发集中部分数据划分为测试集进行实验,划分后的数据集规模如表1所示。
分析模型预测答案的准确程度与答案长度之间的关系,统计测试集上不同答案长度对应的平均F1值和EM值,如图2基于答案长度的统计所示。当答案长度较短时,模型能够准确地预测答案,并且EM值与F1值相差不多,但随着答案长度的增加,预测的准确程度出现下降趋势,并且EM值比F1值受长度影响更大,答案越长则使预测答案与标准答案完全相同就越发困难。
分析模型预测答案的准确程度与问题类型之间的关系,本文通过问题中前两个词是否包含特定疑问词,将问题分为8类,统计测试集上不同问题类型对应的平均F1值和EM值,如图3所示。可以看到模型在When和Who两类事实型问题上表现最好,说明模型通过计算问题和原文的相似性,能够准确地在原文中找到事实类问题的答案。但在Why这类原因推理型问题上表现非常差,说明模型目前只具有浅显的推理能力,还不能圆满有效地综合问题与原文信息经过推理后在原文中找到答案。
4结束语
本文使用片段抽取型数据集SQuAD作为研究的实验数据,受Pointer Networks启发提出了深度学习模型Pointer GAReader,通过Pointer来预测答案在原文中的起始和结束位置。实验结果表明基于深度学习的模型超过基于人工特征的Logistic回归模型,但与人类的表现仍有相当大的差距,因而尚存较大的提升空间。通过统计不同答案长度和问题类型的F1值与EM值,分析模型的表现可知,模型能够在一定程度上理解文本和问题,但缺乏回答复杂问题时的推理能力。
参考文献:
[1] RAJPURKAR P, ZHANG J, LOPYREV K, et al. SQuAD: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv: 1606.05250.endprint
[2] VINYALS O, FORTUNATO M, JAITLY N. Pointer networks[J]. arXiv preprint arXiv:1506.03134.
[3] DHINGRA B, LIU Hanxiao, YANG Zhilin, et al. Gatedattention readers for text comprehension[J]. arXiv preprint arXiv:1606.01549.
[4] PENNINGTON J, SOCHER R, MANNING C. Glove: Global vectors for word representation[C]// Conference on Empirical Methods in Natural Language Processing. Doha, Qatar:dblp, 2014:1532-1543.
[5] ANGELI G, MANNING C D. NaturalLI: Natural logic inference for common sense reasoning[C]// Conference on Empirical Methods in Natural Language Processing. Doha, Qatar:dblp, 2014:534-545.
[6]KADLEC R, SCHMID M, BAJGAR O, et al. Text understanding with the attention sum reader network[J]. arXiv preprint arXiv: 1603.01547.
[7] WANG Hai, BANSAL M, GIMPEL K, et al. Machine comprehension with syntax, frames, and semantics[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: ACL,2015:700-706.
[8] SACHAN M, DUBEY K, XING E, et al. Learning answerentailing structures for machine comprehension[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: ACL,2015:239-249.
[9] SMITH E, GRECO N, BOSNJAK M, et al. A strong lexical matching method for the machine comprehension test[C]// Conference on Empirical Methods in Natural Language Processing.NewYork:ACL, 2015:1693-1698.endprint