APP下载

基于Bi—LSTM—CRF网络的语义槽识别

2018-01-15徐梓翔车万翔刘挺

智能计算机与应用 2017年6期
关键词:语料指令语句

徐梓翔+车万翔+刘挺

摘要: 关键词: 中图分类号: 文献标志码: A文章编号: 2095-2163(2017)06-0091-04

Abstract: The main purpose of natural language understanding is to transform natural language to structural representation. One of the methods of natural language understanding is slot filling. In the slot filling task, the input is natural language and the output is slots which is predefined based on the specified intent, such as from location, to location in flight intent. So the paper treats slot filling task as sequence labeling task, then makes experiments with Bi-LSTM-CRF model on slot filling task. The result shows that Bi-LSTM-CRF model has the significant improvement comparing with traditional statistical methods like CRF. Concretely, F1 is used to evaluate the model results.

0引言

随着人工智能浪潮的兴起,智能聊天机器人成为人们研究的热门,人们希望机器像人一样思考,与人类对话,并成为人类的帮手。完成这些的首要工作是语义理解。通过语义理解,可以使聊天机器人清晰理解人们的意图,并成为人类的助手,帮助人们做一系列事情,如订机票、查询天气等等。

任务的主要目标是:运用自然语言处理的相关方法,对用户发出的命令型语句进行识别和解析,转化成结构化的语义表示,并执行相应命令。图1就是对用户发出的命令型语句进行解析和执行的方法流程。

用户发出的指令型语句主要可提炼表述为如下特点:

1)属于某一个具体的指令领域,例如出行类、音乐类。

2)具有指令型特点,即有具体的指令行为或者目的。例子如下:

① 出行-交通-机票类:帮助查询一下明天从北京去上海的机票。

② 娱乐-音乐类:播放周杰伦的歌曲。

③ 生活类:明天早上8点叫醒我。

本文的目标是从这些指令型的语句中,解析出语义结构,从而能够正确执行指令。主要的思路如下:

步骤1定义指令的领域,为每个领域定义语义槽。即如表1所示,可以定义如下领域。

形式化地讲,在语义槽标注任务中,任务的输入是经过分词后的句子L,输出是每个词的槽类型S。在统计学模型中,该任务通常被建模为:给定词序列L,任务的目标是寻找一种槽标注S,使得后验概率PS|L最大。使用贝叶斯公式,就可以得到:S^=argmaxSPS|L=argmaxSPL|SPS(1)目标函数即被转换为,给定L和S时,最大化联合概率PL|SPS=PL, S。

2基于Bi-LSTM-CRF网络的语义槽抽取方法

长短期记忆神经网络(Long Short Term Memory,LSTM)是一种循环神经网络(Recurrent Neural Networks,RNN)的特殊类型,可以学习长期依赖信息。比起传统的循环神经网络,主要有两个改动的部分。其一,是引入了cell细胞;其二,是加入了gate的机制。

Input Gate是输入门,输入的参数是当前位置的输入信息和上一个隐层神经元传过来的信息,其作用就是用来決定输入信息,留下需要的,削减没用的。

Forget Gate是遗忘门,这是用来决定上一层的隐层神经元传过来的信息需要保留多少,需要删除多少。

Output Gate是输出门,用来决定最后生成的输出信息哪些重要,哪些不重要。

从上面的描述可以看到,对于之前传统的RNN,因为这个模型共享一套参数,因此不能决定哪个位置的信息更重要,哪个位置的信息不重要,所以在学习的时候比较困难,而LSTM引入了这种机制之后就能够更容易保留研究所需要的重要信息。而且能够在一定程度上消减了梯度消失的问题。

本文最终采用的模型结构示意如图3所示。

在LSTM模型的基础上,本文采用了双向LSTM和CRF层结构,如图3所示。对其可得阐释解析如下。

1)使用双向LSTM。在序列标注任务中,通常需要同时考虑历史和未来的上下文信息。然而,LSTM的隐层单元只记录了历史信息,对于未来信息一无所知,双向LSTM模型可用来解决该问题。Bi-LSTM的基本思想是,使用两个LSTM模型,一个模型的输入是序列从左往右的顺序,另一个模型的输入是序列从右往左的顺序。最后,将两个LSTM模型的隐层单元输出进行拼接,作为整体网络隐层的输出。

3评价指标与实验结果

3.1实验语料准备

本文使用ATIS语料作为实验的数据集。该数据集存储的都是英文机票语料。这个数据集包括了128种不同的标签,ATIS-2和ATIS-3的4 978句选作训练语料,随机抽取其中80%共3 983句作为训练集,剩下20%共995句作为开发集;同时,使用ATIS-3 Nov93和Dec94数据集的893句作为测试集。

3.2评价指标endprint

由F1值可以看出,使用Bi-LSTM模型相比使用CRF的baseline,在開发集和测试集上,结果都有显著提高;Bi-LSTM-CRF的模型相比Bi-LSTM在开发集和测试集上结果都有一定提高,在这几种方法中取得了最好的效果。最终展现即如图4所示。通过实验结果可以看出,Bi-LSTM使用CRF相比使用Viterbi Loss,学习的收敛速度更快。图4中的loss进行了归一化处理。

4结束语

自然语言理解任务的主要目标是运用自然语言处理的相关方法,对用户发出的命令型语句进行解析和执行,转化成结构化的语义表示,并执行相应命令。本文重点研究了基于语义槽抽取的自然语言理解方法。在基于语义槽抽取的自然语言理解任务中,任务的输入是用户的指令型语句,输出为指令的语义槽实体标注序列,如出发日期、出发地点等,故可将语义槽抽取任务看作类似于命名实体识别任务,以序列标注任务的方法解决。本文探讨研发了基于Bi-LSTM-CRF模型的语义槽抽取方法,并在英文语料ATIS上进行了实验。实验结果表明,基于Bi-LSTM-CRF网络的方法相比于CRF的基准方法,结果得到了大幅度的提升。

参考文献:

[1] QUIRK C, MOONEY R, GALLEY M. Language to code: Learning semantic parsers for if-this-then-that recipes[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (ACL-15). Beijing, China:ACL, 2015:878-888.

[2] LI Dong, LAPATA M. Language to logical form with neural attention[J]. arXiv preprint arXiv:1601.01280, 2016.

[3] WONG Y W, MOONEY R J. Learning for semantic parsing with statistical machine translation[C]// Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics. NewYork:ACM, 2006:439-446.

[4] WONGY W, MOONEY R J. Learning synchronous grammars for semantic parsing with lambda calculus[C]// Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Prague, Czech Republic:ACL, 2007,45(1):960-967.

[5] MILLER S, STALLARD D, BOBROW R, et al. A fully statistical approach to natural language interfaces[C]//Proceedings of the 34th annual meeting on Association for Computational Linguistics. Santa Cruz, California: ACM, 1996:55-61.

[6] ZELLE J M, MOONEY R J. Learning to parse database queries using inductive logic programming[C]// Proceedings of the thirteenth national conference on artificial intelligence. Portalnd, OR:AAAI,1996:1050-1055.

[7] ARTZI Y, ZETTLEMOYER L. Bootstrapping semantic parsers from conversations[C]//Proceedings of the conference on empirical methods in natural language processing. Edinburgh, United Kingdom: ACM, 2011:421-432.

[8] ZETTLEMOYER L S, COLLINS M. Learning to map sentences to logical form: Structured classification with probabilistic categorial grammars[J]. arXiv preprint arXiv:1207.1420 ,2012.

[9] ZETTLEMOYER L S, COLLINS M. Online learning of relaxed CCG grammars for parsing to logical form[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Prague, Czech Republic:DBLP,2007:678-687.

[10]ZETTLEMOYER L S, COLLINS M. Learning contextdependent mappings from sentences to logical form[C]// Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2. Suntec, Singapore: ACM, 2009:976-984.endprint

猜你喜欢

语料指令语句
一样,不一样
《单一形状固定循环指令G90车外圆仿真》教案设计
可比语料库构建与可比度计算研究综述
新机研制中总装装配指令策划研究
中古汉语分期研究所涉及的语料问题
如何使用第二外语学习者语料
基本算法语句
我喜欢
作文语句实录
英语教学中真实语料的运用