APP下载

基于主动学习的试油气井控领域命名实体识别模型

2022-07-04尚福华马宁解红涛

计算技术与自动化 2022年2期
关键词:主动学习深度学习

尚福华 马宁 解红涛

关键词:命名实体识别;深度学习;主动学习;试油气井控领域

近年来人工智能飞速发展,信息化技术被广泛应用到各个专业领域,通过知识图谱系统能够对信息进行结构化的储存,在检索的同时也能够比较完整地掌握有关知识点。知识图谱的形成过程中最关键、最基础的过程之一便是命名实体识别。

现阶段部分学者对各个专业领域命名实体进行了研究,例如Tang等进行了司法领域的命名实体识别;Luo等在化学领域上完成了命名实体识别任务;肖瑞等完成对医案数据的命名实体识别。这些专业领域有较为丰富的知识库,可以作为训练数据,能够取得较好的识别效果。经过本实验室在试油气井控领域的长期研究,发现油田试油气井控领域的数据在数据类型分类方面缺乏归纳与整理,没有形成相应知识库,更没有相应的标注数据。当面对标注数据少的问题,众多学者把视野放到迁移学习,以及监督学习的方法上。远程监督的方法也可被考虑是否真的能够解决问题,如文献[4]。文献[5]则通过主动学习的方式也可以达到预期结果,但在每次迭代时都会进行一定数量的手工标注。K近邻的方法也被考虑进来,而文献[6]则将视角锁定在迁移学习上,通过迁移学习减少了人工标记的工作量,文献[7]提出了AdaBoost算法的解决思路,对此问题提出了解决方案。无论是迁移学习还是用K近邻,都是监督学习的方法,为了获得监督学习所需要的训练样本,增加了整体工作量,不符合减少标注工作量的初衷。主动学习通过选择方法和选择算法,在大量初始数据集中选择特色较鲜明的数据,从而建立更贴合、更符合深度学习模式训练目标的数据子集,采用这种方法有效降低了数据标示的工作量。

提出了一种基于主动学习的试油气井控领域命名实体识别模型。该模型引入了主动学习方法,通过使用少量标注完成的数据对未标注的数据进行自动标注,解决了试油气井控领域标注数据样本不足的问题,增加训练数据,进而提高命名实体识别的识别效果。

1试油气井控领域命名实体识别模型

试油气井控领域命名实体识别模型使用的是深度学习的方法。深度学习的優点是对于更复杂的特征工程,依旧具备更优秀的泛化学习技术能力,正是根据此特点,深度学习技术在命名实体识别的各项任务中获得了更普遍的运用。比如,单向长短期记忆网络(LSTM)就被广泛用于任务中,因为LSTM有较强的序列特征提取学习技术能力,并且在与CRF结合(LSTM-CRF)后,能够获得更为出色的识别效果。Lample等为了得到上下文特征,使用双向长短期记忆网络(BiLSTM),并在分析对比以后,决定与CRF融合,共同构建BiLSTM-CRF神经网络模式,使得辨识的有效性逐步增强,此后该模式逐步成为深度学习中解决各个应用领域实体识别问题的首选模式。

在BiLSTM-CRF已有常用模型上加入BERT作为词向量模型,并加入注意力机制,优化识别效果。BERT在训练其词向量时,会消耗大量的数据资源,此过程归类于无监督的方式,正因如此,BERT才可以提取数目庞大的语法和丰富的语义特征,并得到试油气井控领域的词向量表示。BiL-STM负责随对下层的特征提取进行处理,其结果将以特征向量的形式传达给注意力机制,注意力机制在分类任务中对特征获得有着良好的表现。为了预测信号,可以选择使用CRF,这样就能够对BiLSTM的输出重新编码,为了让试油气井控领域的专业词汇获得更好的识别效果,引入Attention注意力机制,最终完成命名实体识别的任务,模型整体结构如图1所示。

1.1 BERT模型

BERT的内部模型构造如图2所显示,其中,分别是输入矢量和输出矢量。其中所要求的参数通过训练而得到的数据来源是大规模无标注数据。其相比于LSTM能捕捉更远距离的序列特征。BERT本质上是一种使用遮蔽语言训练数据的过程,它的方法就是针对下一句进行的特征提取与预测。通过对部分任意的词汇进行数据覆盖,使原始单词的数据集在模型训练的过程中得到部分数据暂时缺失的效果,从而进行预测,进而在文本的前后文中获得更多的特征。

“井控是对油气井的压力控制”这句话中的“井控"80%都会直接进行遮挡,然后随机选择10%更改成其他单词,另外10%则仍然保留原单词。在设计训练模型时,一个句子会用上述的方式进行相应处理,再被多次喂到模型中进行参数学习。下句的预测训练方法,是指两个句子中间有无实际关联,判断结束后,其结果以标签的形式进行相应标注。在试油气井控的数据集中选择连续两句话,当IsNext关系超过50%符合后,将对这两句话的内容进行保留,后续的任务是,从语料中提取剩余的一句话,此时NotNext则是对应的关系。经过此方法可以提取出更多的句子级特征,让词向量获取更好的特征数据。

BERT在获得词向量时的优点是明显的,但它的资源消耗是巨大的,使用BERT自带的微调的方式可以有效解决资源问题,根据BERT训练数据的格式,对试油气井控领域的专业词汇进行标注,训练过程中将不会变更BERT内部的相关参数,即直接应用预训练好的模型。此方法避免了对资源的浪费,优化了过程,而且使BERT在专业领域生成的词向量更加准确。

1.2BiLSTM和CRF神经网络模型

BERT获得的只是试油气井控的词向量信息,为了提高识别效果,对试油气井控数据的全局上下文特征的获取使用BiLSTM,通过它可以获得更多的特征信息。BiLSTM由两个部分组成,正向和反向的LSTM,分别是其内部的两部分,LSTM的内部结构是对RNN的升级。LSTM内部的神经元结构中采用了三门控制单元,这部分正是对RNN升级的部分。三种控制门都有其独特的功用,对信号监控、决定、遗忘的决定权。各司其职,使LSTM具备了记忆功能,可以获得长序列特征,并且克服了在RNN训练过程中产生的阶梯消失现象,甚至阶梯破坏的现象问题。

BiLSTM提取出的依赖关系,需要进一步使用约束条件进行约束,过滤小的分类结果,保留可靠的预测,获得更为准确的语义特征。CRF主要负责进行一定规则上的处理,处理的内容是对BiL-STM的输出内容增加一些约束条件,选择出可能性小的部分,让更大可能性的结果更多。比如:“井控是对油气井的压力控制”句子的第一个词“井控”应该是“B一”或“O”而不是“I”。“B-NAME I-NAME”是正确的,而“B-NAME I-ORG”则是错误的。条件随机场负责对结果进行更深一步的修正,条件随机场的工作部分十分重要,准确地提取标签之间的依赖关系,是命名实体识别模型识别的实体结果的关键,让模型可以再标注规则的范围内运行。

1.3注意力机制

深度学习方法效果虽然较好,但训练过程通常难以解释。注意力机制还能够了解文本的全局上下文内容,从而克服了对句子的长距离依赖现象。在进行命名实体识别之后,不同的文字往往产生不同影响,比较重要的词可能仅是几个专业词汇,因此分类时需要关注更加有效的文字。比如,“一级井控”“二级井控”“井喷”“油气层”等概念更为重要,在模型中需要获得更多的权重。

在命名实体识别任务中,注意力机制可增加试油气井控领域的专业词汇的权重从而区分单词的重要程度。对于句子的深层表示使用注意力机制计算单词权重的公式如式(1)和式(2)所示:

其中w表示参数矩阵,Q为参数向量,6为偏置值。a为权重,代表句子中每个单词。每个单词应该具有不同的关注点,关注点的不同,最终句子用加权求和后向量进行表示。

2引入主动学习的命名实体识别模型

为了解决试油气井控领域标注数据缺失的问题,在试油气井控领域命名实体模型的基础上采用主动学习方法,可以在标注样本较少的情况下,达到较好的识别效果,如图3所示。

主动学习的主要方法是为了从大量未标注数据中,计算出可靠性最高的数据并加以标记的训练,该方式克服了需要监督练习过程,但又不能拥有大量标记的数据作为实验样本的困难。以使用尽可能少的标注样本数量为目的,从而获得和监督学习相似的结果,是使用主动学习的最后任务。主动学习的算法有很多,被广泛使用并取得良好效果的方法主要有两种。

基于流抽样算法和基于池抽样算法,但每次迭代都需要一定数量的手工标注。采用的主动学习是一种在深度学习中融合了聚类算法的方式,使用经过试油气井控领域的标注词汇微调后的BERT词向量模型,获得标注数据和未标注数据的词向量特征信息,使用K-means聚类算法对词向量进行分类,符合分类要求的数据自动标注,并作为训练集数据进入下一个迭代过程,完成主动学习过程。使用聚类算法进行主动学习,充分利用深度学习模型得到的词向量信息,解决了主动学习中需要人工筛选数据的问题,大大降低了人工成本。

在x与y中间的一段距离应该用公式方法d(x,y)表现为x,y间的相似之处,间距与样品相似性之间成反比,也就是间距越大,样品间的相似度和关联性就越差,证明存在较大的差异,距离较近时则为相反情况。在二维空间使用欧氏距离也有它本身的优点,就是运算简单。而对于更高维空间,则使用马氏距离或者曼哈顿距离比较合理,也符合实际需要,欧式距离公式如式(3)所示:

应用BERT将已标记的数据与尚未标记的数据以词向量的方法加以描述,给定数据点为无倾向挑选聚类中心。根据式(3)计算每个样本至聚类中心的间距,获得间距的最小值min计算距离其最近中心,并将样本归类到中心所属的类簇。每个聚类中,所有对象到中心的距离的平均值则为计算的目标,新的中心也就是这个距离的平均值,如式(4)所示:

选取石油地质词汇和井控概念词汇两个领域的专业词汇,通过上述的方法进行聚类,生成图像如图4所示,用颜色区分。可以看出属于一类的词汇,会紧密聚集在一起,就此完成了对未标注数据的分类。对同属于一个群的数据,会按照关联程度进行分组,将离聚类中心较近的数据作为高置信率数据加以标注,并将标注的数据加入训练集,以增加训练样本量,较远的数据则作为低置信率数据,在下次自主学习的迭代练习中加以重新预测。

3实验设计和结果分析

为验证上述识别模型效果,使用试油气井控领域数据进行命名实体识别的实验。

3.1数据源

本实验以测试油气井控制领域数据为例,搜集了试油气领域的有关教科书、培训资料和历年考核试题等作为实验文本,并加以说明,数据源中涉及的主要知识类型有井下气压、土壤地层压力、井控设计、外溢、关井程序、井中气体、压井工序、特殊井控方法、井控设备等九种,实体的类别如表1所示。本文共整理归纳了10589条语料作为实验数据,采用交叉验证将标记语料按照5:1的比例分为训练集、测试集。

3.2标注规范

标注主流的方式主要有两种,分别是BIO三段式标注法和BIOES五段式标注法。本文使用的是BIO标记方式,即试油气井控领域实体的头文字用B代表,实体的中间文字用I代表,和任何实物均不相关的中问文字则用O统一代表。

3.3评价标准

将通过准确率P,召回值R和F。值对实体分辨结果的有效性做出评估,其计算方法如式(6)~式(8)所示,TP为模型辨识正确的实体数量,而FP为模型已识别的不关联实体数量,FN为模型未能检测到的关联实体数量。

3.4实验结果和分析

命名实体识别模型有许多类型,主流的方法归纳总结后包含CNN_LSTM、CNN_LSTM_CRF、BiLSTM、BiLSTM_CRF、BERT_BiLSTM_CRF、BERT_BiLSTM_CRF_ATTENTION六个,首先选取不同模型对相同数据集进行训练,选取效果最好的模型,然后在效果最好的模型中引入聚类算法形成自主学习方法,比较模型在加入新的未标注数据后的训练效果,确定最佳的识别模型。

3.4.1不同识别模型的对比实验

在同一实验环境下,六种命名实体的识别模型CNN_LSTM、CNN_LSTM_CRF、BiLSTM、BiL_STM_CRF、BERT_BiLSTM_CRF、BERT_BiL_STM_CRF_ATTENTION在準确率、召回率以及F1三项指标上进行了对比,实验结果如表2示。可以看出BiLSTM要略优于CNN_LSTM的效果,二者在引入CRF后,其识别效果都有了提升。可以得出结论:BiLSTM提取出井控领域的全局上下文特征,随后进入CRF后,在最终预测的结果标签中添加一些必要约束,以确保识别的标签结果是有效的预测数据,以此提升了准确率和召回率。同时,BERT预训练模型在语义表征方面的表现也非常出色,能够为下层的识别任务提供更为准确的词向量信息,在实验中确实提升BiLSTM_CRF模型的识别效果。BiLSTM模型对于局部信号丢失的情形,在引入ATTENTION后,能够增加局部数据的权重,以此强调文本数据的局部特征,对BERT_BiLSTM_CRF识别模型有显著的提升。

3.4.2主动学习和非主动学习模型对比

通过上一部分的实验,得出BERT_BiLSTM_CRF_ATTENTION是较好的识别模型的结论,在此基础上使用主动学习的方法。分别用5%、10%、15%、20%、25%、30%、35%的标注数据作为主动学习模型的训练集,用100%标注数据作非主动学习的训练集,二者进行实验比对观察效果。

通过表3、图5可以得出结论,在标注数据的体量越来越大后,基于主动学习方法的识别效果会逐步变好。并且在30%时,增速开始趋于放缓,数据达到35%时,与使用完整数据集的非主动学习方法取得了十分相近的结果,由此说明基于主动学习算法的模型可以在少量数据的基础上完成命名实体识别的任务,有效降低了数据标注的工作任务。

4结论

研究了试油气井控领域的命名实体识别问题,并提供了一个基于主动学习的命名实体识别方法。此方法使用了BERT预训练模式获得单词的向量化表示,随后进入由BiLSTM+CRF所构成的深度学习模式中,当进入注意力机制后,准确率有所上升。为了解决专业领域数据标注不足的问题,引入主动学习的概念,利用聚类算法对预测的标签进行分类。此模型实现了在较少的标注语料的基础上,达到与监督学习算法结果相近的标注效果。试油气井控领域的命名实体识别研究,是后续构建相关领域知识图谱的基础,解决了实际中的问题,此方法与传统机器学习方法相比,不依赖于大量的人工,因此对其他的领域也有借鉴的作用。后续需要扩大数据集的规模,进一步完善相关数据,让此方法在试油气井控领域得到更好的发展。

猜你喜欢

主动学习深度学习
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
发挥家庭小实验的功能 提高学生的实验能力
高中生物教学中学生主动学习策略研究
数字电路课程的翻转课堂教学及调研
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
试论高中生物教学中学生主动学习的措施