基于密集连接思想的小样本关系抽取研究

2021-08-23刘月峰段毅

现代计算机 2021年20期

刘月峰，段毅

（内蒙古科技大学信息工程学院，包头014010）

0 引言

关系抽取[1]是自然语言处理领域的热点任务之一，它是信息抽取、自动问答和知识图谱补全等领域的子任务之一。关系抽取的目标是识别出文本语句中标记实体对之间的预先定义好的语义关系。例如，“姚明的妻子是叶莉”，姚明和叶莉是文本中的标记实体，关系抽取的目标就是去识别出姚明与叶莉两个实体之间的夫妻关系。目前的关系抽取方法大致可以分为两类，它们分别是基于依存句法关系的方法和基于序列的方法。基于依存句法关系的方法是将文本序列的语义依存树提取到机器学习模型中，通过沿着语义依存树形成的计算图构建出句子的分布式表示，然后再进行分类，但是这种方法易受符号间语义鸿沟的影响。基于序列的模型对单词序列进行编码，使用卷积神经网络或循环神经网络将句子的文本序列编码为向量化的语义特征，具有更高的鲁棒性。另外，在实际环境下，由于人工数据标注的成本较为昂贵，精确而丰富的训练数据不易获得，我们在实践过程中收集到的往往是小样本量的样本数据，现有的大多数机器学习模型往往依赖大量而且精确的训练数据，并且由于样本量过少，模型容易产生过拟合问题，导致在小样本数据集上却无法获得令人满意的结果。

1 小样本关系抽取

本文提出一种基于密集连接思想的小样本关系抽取框架。时间卷积网络[2-3]如图1所示，是一种在CNN的基础上进行改进，能够有效捕捉到更多长依赖数据，减少信息损失，处理时间序列数据的网络结构。时间卷积网络结合了全卷积和因果卷积的优点，进行padding处理使模型的输入和输出长度相同，同时通过使用因果空洞卷积，获取了更大的感受野，捕捉到了更长的语义依赖关系，卷积后的特征较少丢失。该框架借助于深度学习网络强大的学习能力，将经过预训练的文本序列的语义向量输入到TCN网络，其中的空洞卷积过程能在问句向量序列中获取更大的感受视野，提取到没有“漏接”的过往问句语义信息，更好地减少了问句语义信息的损失。针对CNN[4-5]模型需要使用多层卷积才能延长对时间序列特征数据的建模问题，如图1所示，TCN通过采用空洞卷积方法增大每层的感受野范围，从而减少常规方法堆叠普通卷积层的数量。空洞卷积与普通卷积的不同之处在于空洞卷积允许进行卷积操作时采用间隔采样的方式，采样率取决于膨胀因子设置的尺寸大小。增大TCN感受野有两种方法:设置更大的卷积核尺寸和增加膨胀因子的大小。在空洞卷积操作过程中，膨胀因子的大小会随着网络深度的增加以指数方式增长，故卷积网络能用较少的层数依然可以获得较大的感受野。

图1 原始TCN结构图

虽然TCN网络结构简单，但是当使用小样本数据集训练TCN网络时，会十分容易产生过拟合现象。DenseNet网络是计算机视觉领域中一个非常重要的结构。DenseNet网络将之前所有层的输入和当前层输出的特征向量拼接，再进行非线性变换。因为DenseNet通过这样的拼接，所以输出向量中包含了尽可能多的特征信息，该网络每层卷积的通道数可以设计的相对较小。因此，针对小样本数据集，它能很好地解决过拟合问题。本文的方法就是使用DenseNet密集连接的思想对时间卷积网络进行在小样本数据集进行改进。改进的密集连接时间卷积计算公式如公式（1）所示，f(x)代表时间卷积网络的因果空洞卷积操作，y代表模型最终输出的预测向量。

如图2所示，改进TCN网络使用密集连接思想取每个输出通道的最后一个值进行拼接作为空洞卷积层的输入特征，进行特征映射与空洞卷积操作。

图2 小样本知识库预测框架

由于提取出来的部分特征直接来自于进行词嵌入处理后的数据，直接进行关系抽取，在这个数据集上最终的准确度会有所损失，因此需要再连接一个映射模块将特征进一步处理，此处的映射模块舍弃了池化层，由卷积核大小为3的卷积层和BatchNorm层构成，该模块利用卷积操作对特征进行处理的同时可减少通道数量，从而有效降低最后的特征维度，而BatchNorm层具有抑制过拟合的能力，能够缓解过拟合问题，最后使用log_softmax函数对上一层输出的特征进行处理就得到了对应各个关系类别分类概率的概率预测向量，跟文本对应的标签对比，进行梯度更新。

2 实验

2.1 实验数据

本文使用的训练数据是从新华网、人民网、中国新闻网等网站中抽取出来的新闻语料，这些新闻语料都是国家权威新闻单位发布的，语料质量比较可靠、客观、规范。我们使用Python爬虫技术爬取了从2019年12月1日至2019年12月31日新闻语料，把这些语料排除标题、关键字，把新闻正文文本分割出单个语义样本，并进行关系标注，最后根据合理的比例把这些语义样本随机划分为训练集、验证集、测试集，构建成为小样本关系抽取数据集。关系抽取的任务是识别出单个语言样本中的关系类别。

原始新闻语料的提取使用Python爬虫技术，从获得新闻网页的URL地址到提取出新闻语料的标题、关键字、正文，最终形成原始新闻语料，需要进行以下几个过程：首先，利用requests请求获得新闻网页的URL列表；然后在浏览器的开发者工具查看页面的DOM树，根据网站的DOM树结构映射出新闻页面的标题、作者、正文的HTML标签；最后利用XPath API提取出相应的内容，构造出最后的原始新闻语料。

2.2 实验设置

实验运行在谷歌CoLab平台上，CoLab平台显卡型号为NVIDIA Tesla P100，驱动版本SIM为410.129，CUDA版本为10.0，显存11G。所用深度学习框架为CUDA 10.1和PyTorch 1.6.0。本文采用Adam算法进行参数更新。我们采用glove词向量，词嵌入维度input_size设置为300，卷积核尺寸k设置为3，每层的隐藏单元数hidden设置为300，卷积层的dropout设置为0.45，初始学习率设置为0.03。网络的膨胀因子设置为2，与TCN的膨胀因子相同。经感受野计算公式可知，网络至少需要6层卷积，网络通道数设置为12。实验采取早停机制，当在验证集上在10个epochs训练获得最好的结果，就停止训练，保存模型的参数列表。

2.3 实验结果与分析

实验结果如表1所示，我们分别比较CNN、LSTM、原始TCN以及我们的基于密集连接思想的关系抽取模型进行关系预测的效果，实验表明使用密集连接思想的改进TCN模型的关系预测方法性能有明显提升，这是因为基于密集连接思想的关系抽取方法采用计算机视觉领域密集连接的思想，尽可能多地提取出文本序列中的语义信息，再进行关系抽取，缓解了模型过拟合问题，有效提高了小样本预测分类的性能、取得了在小样本关系预测问题上相对有竞争力的结果。

表1 关系抽取测试结果

为了更有效地证明基于密集连接思想的关系预测模型的有效性，本文对比了测试集上CNN模型和改进TCN模型的Top5准确度，如图3所示，基于密集连接思想的关系预测模型（Improving TCN）在不同学习率设置的情况下，小样本关系分类性能明显优于普通的CNN模型。

图3 CNN和基于密集连接模型的准确率对比

3 结语

本文为了能够充分利用小样本数据来训练关系抽取模型，更加有效地获取小样本训练数据中包含的语义信息，预防模型产生过拟合问题，借鉴计算机视觉领域的经验，提出了一种基于密集连接思想的小样本关系预测模型，对文本序列数据使用因果空洞卷积操作取代堆叠CNN的方式捕捉文本序列依赖关系；使用密集连接机制取代残差处理尽可能多地保留语义信息，能够缓解由于数据量过少产生的过拟合问题，获取更多的语义特征。实验结果表明，本文使用的模型与其他单一模型相比在小样本关系抽取的准确度上有着进一步的提高。