APP下载

基于深度学习的英语自然语言处理系统

2021-03-10曹艳琴

系统仿真技术 2021年4期
关键词:分词特征提取标签

曹艳琴

(西安培华学院人文与国际教育学院,陕西西安 710125)

自然语言处理(Natural Language Processing,NLP)是指利用人类交流所使用的自然语言与机器进行交互通信的技术[1-4]。在NLP研究的早期,学者主要焦点集中在语言结构分析、技术驱动的机器翻译和语言识别方面[5-6]。目前的研究重点是NLP如何更加自然地在现实世界中使用,相应的研究领域包括智能对话系统和社交媒体数据等[7-8]。

随着机器学习的发展,有学者提出基于词典和规则的有监督机器学习分词算法[9-10],该类方法的优点是简单、易于实现,并且可以根据特定场景制定合适的词典。然而,由于没有统一的分词标准,词典的质量无法明确界定,分词结果存在较大差异。此外,有学者提出利用深度学习在NLP领域进行序列标记[11-12]。然而,深度学习网络训练过程比较复杂,许多传统文本标记方法无法直接移植到深度学习网络。最后,NLP中最重要的为文本特征提取,常用的特征提取方法包括TF-IDF算法、TextRank算法、LDA算法等[13-14]。然而,现有的模型并没有考虑不同模式对当前学习任务的重要性,只关注如何有效地同时使用多种模式进行特征提取。

为解决上述问题,本文提出了一种多模态融合特征提取模型,结合条件随机场(Conditional Random Field,CRF),解决句子层次分析中的序列标注问题。并基于混合网络英语分词处理方法,提高英语分词效率及准确率。

1 英语分词混合网络

1.1 网络架构

基于字符的序列标注任务同样可以看作是一个英语分词任务。在分词处理过程中,深度学习对于四元组的描述,主要是借助A4nin,即注释集的方式来实现。

式(1)中,B表示句子开头;M代表句子中间;E为结束分词;S是由单个词组成的分词。

令输入句子设定为c(n),长度设定为n,窗口规格选定为w,起始字符设定为c(1)与c(n)。分词过程可描述如下:

步骤1将zi定义为输入层到隐藏层的线性转换结果,其表达式为

式(2)中,w1是权重矩阵;b1是偏差系数。

步骤2通过元素级激活函数传递线性变换的结果σ,得到隐含层函数hi,具体计算如下:

步骤3利用给定的标号集,用线性变换方式,开展线性变换操作,实现输入字符标记的可能性,即概率设定为yi,则

式(4)中,w2为权重矩阵,b2为偏差系数。

1.2 网络分词处理

为解决长短时记忆神经网络(LSTM)在英语分词处理中结构复杂、处理数据时间长等缺点,在保证处理精度接近的前提下,本文采用门控循环单元(Gate Recurrent Unit,GRU)[15]结合CRF16]模型提高模型训练效率及精度。图3所示为网络结构。

令网络中新引入的状态转移矩阵为A,双层GRU神经网络的输出矩阵为P。令Aij表示时间序列中从标签i转移到标签j的权重;如果Aij的值较大,则表示从标签i转移到标签j的概率较大。令Pij表示输入观测序列,即第i个单词是第j个标签的概率。因此,标记序列的预测输出y=(y1,y2,…,yn),对应于观察序列T=(t1,t2,…,tn)可表示为

图1 GRU-CRF混合网络模型结构Fig.1 Structure of GRU-CRFhybrid network model

2 仿真与分析

2.1 数据集与仿真环境

实验中使用的数据来自SQuAD数据集,共包含107785个问题和相配套的536篇文章。仿真时随机选取20%的训练集作为开发集,其余训练集作为本实验的训练集。在对输入数据集进行训练之前,对所有数据进行预处理。

仿真环境为Python Tensorflow+GPU编译环境;显卡为NVIDIA rtx2080ti;Win10系统,64 GB内存;表1所示为实验部分网络参数。

表1 系统训练参数Tab.1 System training parameters

2.2 特征提取性能测试

表2所示为模型特征降维能力精度测试结果。可以看出,本文提出的模型能够从原始的高维特征中提取低维特征,有效地融合多种原始特征。

表2 精度测试结果Tab.2 Accuracy test results

2.3 网络分词性能测试

将本文提出的混合GRU-CRF网络模型与CRF、LSTM、BI-LSTM、GRU网络模型进行比较,准确率测试结果如图4所示。可以看出,所提出的混合GRU-CRF网络分词方法准确率高于其他模型的测试精度,表明本文的方法具有优异的分词性能。

图2 不同策略模型性能对比结果Fig.2 Performance comparison results of different strategy models

3 结论

本文对英文自然语言处理中文本分割及特征提取进行了研究,构建了GRU-CRF混合网络为内核的分词模型,从而提高英语分词效率及准确率。本文所提出的模型不仅在时间指标上具备优势,而且还兼备LSTM优势,可借助CRF层实现对句子前后标签的关注与分析。本研究为英语自然语言处理有一定借鉴的作用。

猜你喜欢

分词特征提取标签
分词在英语教学中的妙用
基于Gazebo仿真环境的ORB特征提取与比对的研究
结巴分词在词云中的应用
结巴分词在词云中的应用
基于Daubechies(dbN)的飞行器音频特征提取
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
Bagging RCSP脑电特征提取算法
标签化伤害了谁
科学家的标签