基于对抗网络的农业生物质材料检测领域命名实体识别
2021-08-31李洋邢林林蔡红珍徐航苏展鹏
李洋邢林林蔡红珍徐航苏展鹏
(1.山东理工大学农业工程与食品科学学院,山东 淄博 255000;2.山东理工大学计算机科学与技术学院,山东 淄博 255000)
引言
农业生物质材料是指以植物及加工产品和废弃物作为基本原料,通过高技术手段进行加工变为性能优异、节能环保的新属性材料。对于生物质[1]能源的开发和利用,农业生物质材料的应用可以使农业由数量型向质量型进行转变,推进农业的可持续发展,实现美丽乡村建设;农业生物质材料有诸多优点,如种类多、分布广、储量丰富等,这给材料的制备和研发提供了源头支持。
随着技术的进步,越来越多的农业生物质新材料在市场上出现,但是对于其属性的检测有很多问题。如,在送检过程当中,用户很难找到适合自己材料属性检测的服务提供商,并且服务提供商在提供服务过程中会对材料的尺寸大小作出严格要求,对于生物质材料而言,不同规模的材料可能呈现出的属性效果会略有差异。在寻找服务的过程中,材料的保存与储藏也会影响材料的属性效果,这也对生物质材料的检测提出了时效性的要求。
目前许多学者开始关注农业信息技术的重要性,并提出了相应的技术方法,但大多数是从理论角度出发而忽略了农业信息挖掘技术的实际应用。很多线上生物质材料检测平台对于服务的描述过于单一,无法使用户精确地检索信息,因此,本文通过引入对抗训练和自注意力机制命名实体识别技术可以帮助用户挖掘产业信息,提升农业检测服务效率,降低工作成本。
1 相关技术
1.1 农业生物质材料命名实体识别任务
命名实体识别技术是自然语言处理的基础任务,利用网络模型识别出某一概念的实例,如人名、地名、机构名称等,其演变过程也是由最初基于规则的方法到目前深度学习的方法。目前,农业领域的命名实体识别技术也随着互联网技术的发展而不断更新,赵鹏飞等[2]通过引入自注意力机制来解决农业领域文本实体标记不一致的问题,并通过比较不同数据库之间的识别效果,发现其准确率得到一定提升。宋林鹏[3]等通过对比传统CRF和基于词向量的双向长短期记忆网络模型来提升对于农业转移技术中的识别提取效果。李想等[4]针对农业平台问答效率问题,提取数据库中关键实体,利用条件随机场技术进行自动构建关联三元组,提升了模型的识别准确率。郭旭超等[5]针对农业病虫害命名实体识别技术,提出一种基于注意力机制和部首嵌入的神经网络模型,利用卷积神经网络提取农业实体的部首特征,进而通过长短期记忆网络和条件随机场来保证实体输出结果的准确率。Guo X等[6]提出一种多尺度局部上下文特征和自注意力机制的中文命名实体识别模型,通过不同核大小的卷积神经网络提取上下文特征,采取自注意力机制来缓解Bi-LSTM-CRF在远程依赖上的限制。
1.2 实体标注任务
实体标注任务[7]作为自然语言处理当中较为简单的基础步骤,用于解决数据文本中字符的分类问题。实体标注是将文本序列中的每个信息单元进行有规则的标记,一般待标注的序列表示为X=x1,x2,x3…xn,对于不同领域的任务,实体标注的形式也不同。分词任务的标注和实体识别的实体标注不相同,分词任务只是将实体定义为开始、结束、单一实体等;而命名实体识别任务要将实体分为符合概念定义的序列。
1.3 对抗训练
对抗训练[8]是通过定义的生成器与判别器之间的互相博弈来输出更加准确的结果,计算公式:
(1)
式中,X为输入信息;δ为输入信息的扰动;y为样本的标签;L(fθ(X+δ),y)为在样本X上添加扰动δ,进而通过max(L)进行优化目标。
在农业生物质领域数据集中,命名实体识别任务和分词任务共享着较多的边界信息,每个任务都有自己特有的信息特征,因此对抗训练的方式可以过滤掉分词任务中的特有信息,将共享信息融入到命名实体识别任务中,提升输出结果的准确率。
李静等[9]通过局部对抗训练的方法来解决实体内部边界信息的歧义问题,通过对抗训练增强神经网络模型对于边界信息的识别能力,提高了样本的输出质量。张庆林等[10]通过互补对抗学习的方法,提高分类器的鲁棒性能和泛化性能。董哲等[11]首先引入BERT来获取字向量,并通过对抗训练的方式来降低中文分词任务对于命名实体识别任务的噪声影响。
本文在对抗训练阶段,通过在每一次的迭代过程中选择实体识别任务或者分词任务进行参数的更新,选择Adam优化器来优化损失,计算过程:
Loss=LossNER·I(X)+LossCWS·(1-I(X))+γLossAdv
(2)
1.4 神经网络模型
LSTM长短期记忆网络作为循环神经网络RNN的变体,有效解决了在循环神经网络RNN的训练过程当中所产生的梯度爆炸和梯度消失问题,其结构如图1所示;但是单向的长短期记忆网络在同一时间内处理数据集的上下文语义信息,而且LSTM针对有序的数据集,只能处理方向为从前向后的语义信息,对于从后往前的信息则无法获取。
图1 LSTM结构图
在更细粒度的分类时,如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的5分类任务需要注意情感词、程度词、否定词之间的交互,本文采用的前后双向长短期记忆网络Bi-LSTM能够更好地捕获双向的语义依赖。LSTM模型的计算过程可以分为以下几个步骤:
Bi-LSTM[12]神经网络模型相较于传统的自然语言处理方法,其优势在于双向的LSTM模型不仅可以更好地利用以前的上下文信息,还可以利用未来的上下文信息。在实际的命名实体识别任务当中,由于应用场景众多,所以预测过程可能会使用到整个序列的输入信息。
1.5 条件随机场
Bi-LSTM双向长短期记忆模型在命名实体识别任务中可以很好处理长距离的语义关系,但是对于临近的标签依赖关系,Bi-LSTM则无法处理,因此通过添加CRF条件随机场能够有效地解决这一问题。CRF是通过考虑词向量特征,计算条件可能性的概率模型。CRF条件随机场可以在相邻的标签信息关系中找到最优的预测序列,从而保证预测标签的合法性。Bi-LSTM-CRF总体结构如图2所示。
图2 Bi-LSTM-CRF结构图
对于一个输入序列Z={z1,z2…,zn},在命名实体识别框架中所得到的预测序列为Y={y1,y2…,yn},得到预测序列Score函数:
(3)
式中,A为分数转移矩阵,表示前一标签到下一标签的分数;P为模型输出矩阵,计算一个实体的得分情况。预测序列Y的产生概率:
(4)
采用极大似然估计原理,通过取对数得到预测序列Y的似然函数:
(5)
基于极大似然估计原理,优化目标函数:
(6)
1.6 自注意力机制
生物质材料检测领域文本语句相对较长,Bi-LSTM在训练的过程中丢失关键数据信息。而且中文字词在不同的语义环境中所呈现的含义也不同,注意力机制的主要目的在于根据目标信息去关注部分细节而不是基于全局进行分析,因此多头注意力机制的引入可以缓解LSTM在训练过程中的遗失问题,提高检验检测领域的识别效果。主要公式:
(7)
(8)
多头注意力机制的表达式:
Multihead(Q,K,V)=Concat(head1,…,headn)WO
(9)
式中,Q、K、V分别代表从一开始输入的向量矩阵。
2 结果与分析
2.1 数据集
本文所采用的数据集通过网络爬取各大检验检测网站的生物质材料检测信息,选取检测机构名称、检测内容及位置信息作为实验目标,训练集共包含标签数量178834,测试集标签数量为47106,其数据样例如表1所示。
表1 数据文本样例
2.2 数据标注
2.2.1 标签标注方式及结果
本文采用BIO的标注方式,B表示单位实体的开始,I表示实体的剩余部分,而O则表示非实体类型。由于数据集中选择检测机构、检测内容和检测设备作为识别目标,所以标注方式共有7种,其标注结果如表2所示。
表2 标注结果
2.2.2 分词与实体识别任务标签比较
通过对于农业生物质材料检测领域的数据分析,发现分词任务与实体识别任务都有着不同的边界信息,如果单纯采用简单的神经网络模型进行训练,很难取得良好的实验效果,因此通过引入对抗训练来减少分词任务和命名实体识别之间的共享信息问题。
表3 NER与CWS对比
2.3 实验环境
本文所采用的实验环境基于Tensorflow搭建,具体配置如表4所示。
表4 实验环境
为使得本文所采用的方法及神经网络模型识别效果最优,本文选择了多种超参数设置并在公开训练集上进行实验效果对比,经对比发现部分参数的设置确实会对实验效果产生影响,其中不同学习率对于输出结果影响较为明显,如图3所示。因此,本文的参数设置为字词向量维度100,学习率0.001,dropout为0.1,batch size为20,lstm层为100。
图3 不同学习率对比
2.4 评价指标
选择准确率Precision、召回率Recall、F1值作为本文实验的评价指标。准确率和召回率是广泛应用于信息检索和统计学分类领域的2个度量值,F1值是二者的综合评价手段,计算公式:
(10)
(11)
(12)
2.5 实验结果
对于农业生物质材料数据集按照7∶3的比例划分为训练集和测试集,不同标签的实验结果如表5所示。
表5 生物质材料文本识别效果
根据实验结果,采用对抗训练的模型所呈现的识别效果要优于其余方法,这表明对抗训练的引入影响了普通样本的分类能力,提升了神经网络的鲁棒性,其输出结果如表6所示。
表6 输出结果样例
3 结论
本文通过引入对抗网络和自注意力机制应用于命名实体识别技术提升农业信息识别效果,爬取了各大农业生物质检测领域相关数据,针对检测机构名称、检测设备和检测内容进行数据分析和标签标注工作;实验效果表明,本文所提出的模型效果与传统神经网络模型相比,呈现出更好的效果。但目前实验所爬取的数据相对不够完善,部分数据存在标签缺失遗漏等问题,因此在后续的研究工作中,应当提升数据质量,不断完善数据规模,优化实验模型。
随着中国农业的不断发展,各类不同特性的农业生物质材料在市场上出现,加快了农业高效率转化的步伐,因此对于农业生物质材料的属性检测也为创造高效、优质、低耗的农业生产体系起到了推动性的作用,也是完善农业信息挖掘技术的供需匹配、服务解耦和个性化推荐的关键步骤。