面向科技情报分析的知识库构建方法

2022-11-20王红滨

计算机工程与应用 2022年22期

王勇，江洋，王红滨，侯莎

1.哈尔滨工程大学计算机科学与技术学院，哈尔滨 150001

2.中国船舶集团有限公司第七一四研究所，北京 100101

信息时代的计算机技术迅猛发展，利用网络能获取大量的信息，这些信息包含方方面面，数据量大，结构多变，很难直接进行理解和应用，如何从这些信息中快速而准确地分析出有用的信息显得尤为重要。信息抽取技术[1]在一定程度上解决了海量数据的提取问题，但是抽取出来的信息仍然很难进行人为的分析和管理，而知识库（knowledge base）[2-4]作为知识的集合体，在智能信息处理中起着十分重要的作用。知识库构建的核心之一就是针对大量的信息进行实体抽取和实体关系抽取。

1 相关工作

传统的实体抽取方法有基于规则的方法。规则采用手工编写的方式，将文本与规则进行匹配来进行实体的识别。但是这种方式需要大量的语言学知识才能构建规则，费时费力。其次，有基于统计机器学习的方法。这种方法将实体抽取视作序列标注任务，利用大规模语料学习出标注模型，从而对句子进行标注。

随着硬件技术的提升和词的分布式表示的出现，神经网络成为有效解决自然语言处理任务的模型。实体抽取大多转化为序列标注任务，通俗来讲就是从一段自然语言文本中找出相关实体，并且标注出其位置和类型。Pappu等[5]提出了一个轻量级的多语言实体抽取方式，实现了高精度的实体抽取，并且降低了内存占用。Bartoli等[6]考虑从非结构化文本中以正则表达式的形式自动生成实体提取器，提出了一种主动学习方法，可以最大限度地减少用户注释的工作量。Yadav等[7]基于生物医学语料对实体进行抽取，利用深度学习和粒子群优化的概念，提出了一种新颖的用于实体抽取的特征选择方法。冯蕴天等[8]利用深度信念网络对神经网络语言模型进行了扩展，提出了一种可用于命名实体识别的深层架构。

关系抽取的主要任务是从文本中对实体进行识别并抽取实体间的语义关系。主流的关系抽取技术有：有监督的学习方法、半监督的学习方法和无监督的学习方法。与其他两种方法相比，有监督的学习方法准确率和召回率更高，能够学习更有效的特征。有监督的学习方法将实体间的关系抽取视为分类任务，根据训练语料学习各分类模型，然后使用训练好的模型对关系进行抽取。

Dewi等[9]对关系抽取中的卷积神经网络（convolutional neural network，CNN）进行改进，提出了Deep-CNN模型，扩展了CNN的深度。Miwa等[10]提出了在LSTMRNN（long short term memory-recurrent neural network）上堆叠树状结构的LSTM-RNN的端到端的模型，同时提取实体与实体之间的关系。Xu等[11]提出一个基于神经网络的关系提取器，并将其用于知识问答系统上。Gupta等[12]引入表格填充多任务回归神经网络（table filling multi-task recurrent neural network，TF-MTRNN）模型，将实体识别和关系分类任务简化为填表问题并模拟它们的依赖关系。对远程监督容易受到嘈杂标签影响的局限性，远程监督假设拥有相同实体对的句子都描述同一种关系，这种方法只能进行袋级分类，而不能抽取出实体与句子之间的映射。

2 基于神经网络的实体抽取

对中文实体抽取的研究大多在词级别，受近期深度学习的启发，基于字的序列标注在不降低性能的情况下简化了任务。但是字的语义信息往往比词的语义信息薄弱，在保留字信息的同时又引入了词的语义信息，即把词向量作为字的附加特征，这样可以加强字的语义信息。Encoder-Decoder是深度学习中常见的一个模型框架，应用非常广泛。采用双向长短期记忆网络（bidirectional long short-term memory，BiLSTM）[13-15]对文本进行编码，用长短期记忆网络（LSTMd）进行解码。为了提高模型的性能，采用了Attention机制，不要求编码器将所有输入信息都编码成一个固定长度的向量之中，只需要将输入编码成一个向量的序列。综上，提出了CWATTBiLSTM-LSTMd（character word attention-bidirectional long short-term memory-long short-term memory）模型。图1给出了该模型的基本结构图。

由图1可以看出，CWATT-BiLSTM-LSTMd模型包含一个BiLSTM层来对输入句子进行编码和一个加入Attention机制的LSTMd解码层。采用BILOU标注策略，B即Begin，表示开始，I即Inside，代表中间，L即Last，代表结尾，O即Outside，用于标记无关字符，U即Unit，代表单元字符。每个实体标签代表实体类型和字在实体中的位置。模型的输入是一串字的序列，需要对句子进行分词，通过嵌入层将每个字映射为低维稠密的实数值向量，并且将其与字所在词的词向量拼接起来，将拼接之后的向量作为字的最终嵌入。之后经过一个BiLSTM层，自动提取句子特征，将正向LSTM输出的隐状态序列和反向LSTM输出的隐状态序列通过激活函数得到完整的隐状态序列。最后通过加入Attention机制的LSTMd解码层来生成标签序列。下面将详细讲解如何用这个模型进行实体抽取。

2.1 嵌入层

在自然语言处理中，词嵌入是一种流行的技术，它将单词映射到相对较低维的空间中。用词嵌入表示连续低维空间中的词，可以捕获词的语义或者语法属性：相似的词具有类似的低维向量表示。基于字序列和基于词序列是实体抽取的两种方法，这两种方法各有优劣。基于字的实体抽取简化了任务，但字的语义信息不如词的语义信息丰富；基于词的实体抽取需要预先对句子进行分词处理，比较依赖分词的准确率。同时引入字向量和词向量，在保留字信息的同时又附加了词的语义信息，将经过分词后训练得到的词向量作为字信息的附加特征。模型对当前字序列进行标注时，词向量的加入可以告知其附加的语义信息，这样增强了字序列中字的语义信息，在一定程度上减少了一字多义产生的语义混淆。

给定一观测序列c={c1,c2,…,ct,ct+1,…,cn}，序列长度为n。首先对观测序列进行分词处理，对于观测序列第t个字ct,将ct所在词wt作为字ct的特征。定义embct为第t个字ct的字嵌入，embwt为该字所在词wt的词嵌入，然后将首尾拼接得到的向量[embct,embwt]作为最终结果嵌入xt。

2.2 BiLSTM编码层

嵌入层将独热（one-hot）表示的字转换为嵌入向量。编码层使用来自嵌入层的向量用线性序列表示字序列，该层可以表示语义上下文信息。一个字序列可以表示为X={x1,x2,…,xt,xt+1,…,xn}，其中xt∈Rd对应于句子中第t个字的d维向量嵌入，n是给定句子的长度。在嵌入层之后紧接着编码层，编码层有两个平行的LSTM层：前向LSTM层和后向LSTM层。LSTM体系结构由一组循环连接的子网组成，称为记忆块，每个时间步是一个LSTM记忆块。BiLSTM编码层中的LSTM记忆块被用来计算当前隐藏向量ht。

第t个字的LSTM记忆块由一组n维矢量组成：输入门it、遗忘门ft、输出门ot、记忆单元ct和隐藏向量ht。LSTM记忆块接收n维的输入向量xt、前一时刻的隐藏向量ht-1和前一时刻的记忆单元ct-1，然后用以计算当前隐藏向量ht。计算当前隐藏向量ht的详细操作如式（1）～（6）所示。

其中，σ表示sigmoid函数，⊙表示点乘，W是权值矩阵，b是偏差向量。it、ft和ot分别表示输入门、遗忘门和输出门，输入门和遗忘门的输入都是[xt,ht-1,ct-1]，输出门的输入是[xt,ht-1,ct]，然后要经过一个激活函数，把值缩放到[0，1]附近，使用tanh作为激活函数。ct是记忆单元，由t时刻遗忘门的输出、t-1时刻记忆单元的输出、t时刻输入门的输出和经过激活函数计算的zt得到。如果遗忘门ft取值为0，那么前一时刻的状态就会被全部清空，只关注此时刻的输入。输入门it决定是否接受此时刻的输入，最后输出门ot决定是否输出单元状态。

对于每个字xt，前向LSTM层将通过考虑从字x1到xt的上下文信息来编码xt，其被记为，以类似的方式，后向LSTM层将基于从xn到xt的上下文信息来编码xt，其被记为，最后，连接和来作为第t个字的编码信息，记为ht=[]，并将其传入下一层。

2.3 LSTMd解码层

在BiLSTM编码层，d1维隐藏向量ht=[h→t;h←t]表示输入序列X中第t个字的编码输出。令Mt为包含序列X中每个字的连接双向BiLSTM输出的矩阵。Mt是一个ln×d2矩阵，其中ln是序列X中字的数目，d2是BiLSTM中连接隐藏向量的维度。令mit表示Mt的第i行，令P是d1×d2维的参数矩阵，p是长度为d2的偏差向量。通过式（7）～（9）计算Attention上下文向量at。

计算得出Attention上下文向量at之后，将其附加到隐藏向量ht以获得连接向量ut,连接向量ut=[at;ht]。使用LSTM结构来显式建模标签交互。当生成字xt的标签时，LSTMd解码层的输入是：从BiLSTM编码层并经过Attention机制获得的连接向量ut，前一个预测标签矢量Tt-1，前一个记忆单元c(2)t-1和解码层中前一个隐藏向量h(2)t-1。解码层LSTMd内存块的结构图如图2所示。

LSTMd的内存块也拥有三个门，分别是输入门、遗忘门和输出门。解码层的详细操作如式（10）～（15）所示。

其中，σ表示sigmoid函数，⊙表示点乘，W是权值矩阵，b是偏差向量。i(2)t、f(2)t和o(2)t分别表示输入门、遗忘门和输出门，输入门和遗忘门的输入都是[ut,h(2)t-1,Tt-1]，输出门的输入是[ut,h(2)t-1,c(2)t]。ut表示Attention连接向量，h(2)t-1表示解码层中前一个隐藏向量，Tt-1表示前一个预测标签矢量，c(2)t表示当前记忆单元。当前隐藏向量h(2)t由输出门o(2)t和经过tanh激活函数的记忆单元c(2)t得到。预测标签矢量Tt从隐藏向量h(2)t的变换如式（16）所示。

其中，W是权值矩阵，b是偏差向量。得到预测标签矢量Tt之后，最终经过一个softmax层来计算标准化的实体标签概率pit，通过式（17）和式（18）计算。

其中，Wy是softmax矩阵，Nt是实体标签总数。在解码过程中，使用当前字的预测标签来预测下一个字的标签，以便将标签依赖性考虑在内，比如标签O之后不可能跟标签I-LOC。因为T与标签嵌入类似，并且LSTM能够学习长期依赖性，这种方式可以模拟标签交互。

3 基于强化深度学习的实体关系抽取

关系抽取也是构建知识库的重要环节，在实体抽取完成之后需要对实体之间的关系进行抽取以构建三元组。针对远程监督的局限性，提出了RL-TreeLSTM模型，这是一个采用强化深度学习的实体关系抽取模型，能够有效降低数据噪声。RL-TreeLSTM模型不从传统的袋级层面考虑问题，而从句子层面来考虑问题，它包含一个选择器和一个分类器，选择器通过强化学习的方式选择高质量的句子，并将所选语句输入到关系分类器中，分类器进行句级测评并向选择器回馈奖励（reward）。分类器采用TreeLSTM来实现，通过句法分析和LSTM结合的方式来进行实体关系的抽取。与传统的自底向上的TreeLSTM不同，采用双向的TreeLSTM结构，即加入了自顶向下的方向，这种结构不仅传播来自叶子的信息，还传播来自根的信息。

将实体关系抽取分解成两个子问题：实例选择和关系分类。在选择器中，每个句子di都有相应的动作ai来指定是否将句子di选作分类器的训练实例。状态si由当前句子di表示，{d1,d2,…,di-1}是已经被选作训练实例的句子，句子di包含实体对e1i和e2i。选择器根据随机策略对给定当前状态的动作进行采样。分类器选择TreeLSTM来确定给定句子中实体对的语义关系。选择器将训练数据提取到分类器以训练TreeLSTM网络，同时，分类器向选择器提供反馈以改进策略函数。在选择器的帮助下，模型直接过滤掉有噪声的句子，分类器在过滤后的数据上进行句子级别的训练和测试。模型的基本结构如图3所示。

由图3可以看出，实例选择器根据策略函数选择语句，然后使用这些选择的语句来训练关系分类器，之后从分类器中计算出奖励，通过奖励（reward）函数对选择器的参数进行更新。

3.1 选择器

关于实例选择问题表述如下：定义D={(d1,r1),(d2,r2),…,(dn,rn)},(di,ri)是＜句子，关系标签＞对。其中，di是拥有实体对(e1i,e2i)的句子，ri是由远程监督产生的有噪关系标签。选择器的目标是确定哪个句子真正描述了这种关系，且应该被选作训练实例。关于关系分类问题表述如下：给定句子di和句子di所提及的实体对(e1i,e2i)，关系分类的目标是预测句子di中的语义关系ri。

将实例选择作为强化学习问题。选择器是agent，agent与环境互相交互，环境由数据和分类器组成。选择器的agent遵循一个策略，来决定每个状态（state）的动作（action）。状态包含当前语句、所选句子集合和实体对。动作是选择当前语句与否，当所有的实例选择结束时，从最终状态的关系分类器向agent返回一个奖励（reward）。只有当所有训练实例的选择都完成时，agent才能从分类器获得延迟奖励。因此，当扫描完整个训练实例时，只能更新一次策略函数，这显然很低效。

为了提高训练过程的效率，得到更多的反馈信息，将训练句子实例D={d1,d2,…,dn}分解为N袋B={B1,B2,…,BN},完成一个袋的语句选择时计算奖励（reward）。每一袋对应着不同的实体对，每个袋Bk是具有相同关系标签rk的句子的序列{d1k,d2k,…,d|k Bk|}，但是关系标签是有噪声的。根据策略函数定义动作（action）为是否选择当前语句，一旦一个袋子完成了选择就计算奖励（reward）。当实例选择器的训练过程完成时，将每个袋子中的所有选择句子合并以获得清洁的数据集X＾。然后，清理后的数据将用于训练句子级别的分类器。下面从强化学习的状态（state）、动作（action）和奖励（reward）三方面来介绍其中某个袋的学习过程。

（1）状态

当对袋B的第i个句子进行决策时，状态si代表当前语句、所选句子集合和实体对。将状态表示为连续实值向量F(si)。F(si)编码了以下信息：

①用于关系分类的当前句子的向量表示；

②所选句子集的表示，它是所有选定句子的向量表示的平均值；

③句子中两个实体的向量表示，从预训练的查找表中获得。

（2）动作

定义一个动作ai={0,1}，用以指示选择器是否选择袋B的第i个句子，ai取值为1表示选择这个句子，ai取值为0表示过滤掉这个句子。通过其策略函数πΘ(si,ai)来对ai的取值进行选择，其中Θ是要学习的参数。在这项实例选择的任务中，定义的策略函数如式（19）所示。

其中，F(si)是状态特征向量，σ(·)是sigmoid函数，参数是Θ={W,b}。

（3）奖励

奖励函数是所选句子效用的指标。对于某个袋B={d1,d2,…,d||B}，模型为每个句子选取一个动作，以确定是否应该选择当前句子。假定该模型在完成所有选择时具有最终奖励，因此只有在最终状态时才会收到延迟奖励，其他状态的奖励为0。奖励函数的定义如式（20）所示。

其中，＾是已选语句的集合，是B的子集，r是袋B的关系标签。p(r|dj)表示句子dj的关系分类标签为r的概率，取值由分类器来计算。对于特殊情况B＾=∅，即袋B中所有句子中实体对的关系均与袋子的关系标签不符合，将奖励设置为训练数据中所有句子的平均似然值，这使得实例选择器模型能够有效地排除噪声包。

3.2 分类器

在RL-TreeLSTM模型中，实体关系的抽取由分类器来实现。选择器通过策略函数决定是否选择当前句子，之后将选择的句子传入分类器，在关系分类器中，用依存树和LSTM结合的TreeLSTM模型来预测关系。TreeLSTM模型用以抽取依存树中的一对目标词之间的关系，如图4所示。

由图4可知，输入句子通过句法分析构造成一棵依存树，每个树节点是一个LSTM单元。箭头表示沿着依存树的自底向上和自顶向下的计算，模型会得到来自两个方向的隐藏向量↑ha、↑hb、↓ha和↓hb。

该模型主要关注依存树中一对目标词之间的最短路径，即两个目标词之间拥有最小公共节点的路径。采用双向树状结构的LSTM，通过捕获目标词对周围的依存结构来表示一个关系候选。双向即自底向上和自顶向下两个方向，这种双向结构不仅传播来自叶子的信息，还传播来自根的信息。对于树状结构的LSTM模型而言，在关系抽取中尤为重要的一点就是利用靠近依存树底部的参数节点。与标准的自底向上的TreeLSTM模型不同，提出的自顶向下的TreeLSTM将树顶部的信息发送到近叶节点中。

实体关系抽取解决了原始文本中目标实体对之间的关系分类问题，它也是构建复杂知识库的重要处理步骤。对于每个关系候选者，通过实体对之间的路径形成依存树结构，神经网络接收从依存树层输出的关系候选向量，并且预测其关系标签。当检测到实体错误或者实体对没有关系时，将这一实体对作为“NA”处理。

通过TreeLSTM从两种序列中提取特征。每个LSTM单元的输入是三部分的串联，输入wt通过式（21）计算。

其中，ht表示相应序列层中的隐藏向量，v(d)t表示依存类型的嵌入向量，是对父项的依存类型，v(T)t表示实体标签嵌入向量。沿着自底向上序列所计算的最后LSTM单元输出表示为↑ha和↑hb，沿着自顶向下序列所计算的最后LSTM单元输出表示为↓ha和↓hb，目标词的顺序对应着关系的方向，而不是句子中的位置。

和实体抽取的网络类似，也是用一个具有n维的隐藏层h(r)和softmax层的两层神经网络，输入源的所有矢量被拼接在一起，然后在隐藏层中计算输出h(r),softmax层计算关系预测的概率p(r|d)，通过式（22）和式（23）计算。

其中，W表示权值矩阵，b表示偏差向量。在预测时为每个实体对分配两个标签，因为考虑了从上到下和从下到上两个方向。当预测标签不一致时，选择正面且更可靠的标签。

4 实验结果与分析

4.1 数据集选取和评价指标

实验采用搜狗实验室搜集的来自若干新闻网站的科技频道的新闻数据来验证模型的有效性，数据集保存了科技情报新闻的正文文体，主要是非结构化数据文本。实验以6∶2∶2的比例将其分为训练集、验证集和测试集。训练集用来建立模型，设置相应的分类器参数，训练分类模型。当利用训练集训练出多个模型后，为了找出效果最佳的模型，使用各个模型，利用验证集中的数据来确定网络结构和控制模型复杂程度的参数。采用准确率（precision，P）、召回率（recall，R）和F值对实验结果进行评价，其中F值能够体现整体测试效果。

4.2 参数设置

本文提出的CWATT-BiLSTM-LSTMd模型包含一个BiLSTM编码层和一个引入Attention机制的解码层。编码部分所使用的嵌入向量是通过运行word2vec软件预训练得到的。具体的参数设置如表1所示。

表1 实体抽取参数设置表Table 1 Parameter setting of entity extraction

本文提出的RL-TreeLSTM模型包含一个选择器和一个分类器。在联合训练模型之前对选择器和分类器进行了预训练。因为需要根据分类器的TreeLSTM模型来计算反馈奖励，所以需要先在整个训练集上预训练TreeLSTM模型。然后固定TreeLSTM模型的参数，从固定的TreeLSTM模型得到奖励用以预训练选择器中的策略函数。最后再对两个模型进行联合训练。参数的设置如表2所示。

表2 实体关系抽取参数设置表Table 2 Parameter setting of entity relation extraction

4.3 结果及分析

实验1验证CWATT-BiLSTM-LSTMd（C-B-L）模型的有效性。

为了验证提出的CWATT-BiLSTM-LSTMd模型的有效性，与CRF模型、BiLSTM模型、BiLSTM+CRF模型和Stanford-NER模型进行了对比。

Stanford-NER模型是由斯坦福大学研发的实体抽取模型，这个模型是基于词向量的实体抽取模型，不仅可以抽取英文的实体，还可以对中文的实体进行抽取。采用的分词系统是由中科院研发的NLPIR汉语分词系统。由于斯坦福大学也研发了基于中文的分词系统Stanford-SEG，使用这两种分词系统在Stanford-NER模型上进行实验以对比分词对模型的影响。

实验结果如图5所示。

CRF在实验中取得了79.05%的F值，而BiLSTM在实验中取得了77.85%的F值。对出现这种情况的原因进行分析：首先，神经网络的模型结构比较复杂，需要较大规模的语料对其进行训练，在所用的数据集下，BiLSTM的性能受到了约束。当数据规模在较小的范围内时，CRF的实验效果要略优于BiLSTM，但是当数据规模在较大的范围内时，BiLSTM的效果将会超过CRF。其次，CRF在对文本进行序列标注时考虑了标签的依赖性，而BiLSTM对序列的标注是相互独立的。因此此次实验的CRF模型的F值要略高于BiLSTM模型的F值。

BiLSTM+CRF模型结合了BiLSTM模型和CRF模型，在输出端将softmax与CRF结合起来，这样既考虑了长远的上下文信息，又考虑了标签的依赖问题，因此取得了优于BiLSTM模型和CRF模型的80.25%的F值。

Stanford-NER模型在Stanford-SEG分词系统上取得了61.81%的F值，在NLPIR分词系统上取得了68.45%的F值，识别效果相对较差，是因为基于词序列的实体抽取更容易丢失有效信息。Stanford-NER模型在两种分词系统中都能取得较高的准确率，但是召回率都偏低，主要因为数据集是基于科技新闻语料的，一些词出现的频率低，训练集没有训练过的词出现在了测试样本中，所以往往不能取得理想的效果。从Stanford-NER模型较低的召回率可以看出，分词模型的准确率将直接影响实体抽取的效果。

本文提出的CWATT-BiLSTM-LSTMd模型取得了89.23%的准确率，虽然准确率的提升不明显，但是召回率却有大幅度的提升，从而取得了比对比模型更好的F值。因为BiLSTM能学习长期依赖的问题，解码层LSTMd能模拟标签依赖的问题，为了提升模型的性能，还引入了带词向量的字向量来解决字向量边界模糊的问题，引入Attention机制对解码层进行优化。

实验2验证RL-TreeLSTM模型的性能。

选择器过滤掉有噪声的句子，选择有效的句子传入分类器。分类器预测了每个句子的关系标签，而不是每个袋的关系标签。它是一个句子级别的实体关系抽取模型。因为以远程监督方式获取的数据是嘈杂的，所以随机从数据集中选取1 000个句子并手动标记每个句子的关系类型来评估分类器的性能。将提出的RL-TreeLSTM模型与RNN模型、CNN模型和PCNN+ATT模型进行了对比，对比实验结果如图6所示。

从图6中可以看出，CNN模型要优于RNN模型。RNN引入了句法分析，但是RNN无法像LSTM一样学习长期依赖问题，词语在句子中的位置越靠后，越对RNN模型不利。

PCNN+ATT模型的F值低于CNN模型，它在所使用的数据集上并未取得优于CNN模型的成果。CNN是一个句子级的模型，而PCNN+ATT是袋级的模型，这说明袋级模型在句子级的预测中表现不佳。

本文提出的RL-TreeLSTM模型是句子级别的模型，要优于CNN模型，因为CNN模型不考虑数据的噪声问题，这显示了采用强化学习的实例选择的有效性。

实验3评估选择器的性能。

为了测量通过选择器所选句子的质量，对所选句子进行了关系分类实验。首先使用选择器从原始数据中选择高质量的句子，之后采用CNN模型和TreeLSTM模型设置两种对比实验。

（1）采用原始数据对关系进行分类，分别命名为CNN（ori）和TreeLSTM（ori）；

（2）使用选择器对原始数据进行选择，选取高效的句子对实体之间的关系进行分类，分别命名为CNN（sel）和TreeLSTM（sel）。

实验结果如图7所示。

从图7中可以看出，使用相同模型的情况下，采用选择器的F值要优于使用原始数据的F值。结果表明选择器能有效过滤有噪声的句子并准确提取高质量的句子，从而获取更好的实体关系抽取性能。

5 结束语

本文主要面向科技情报分析对实体抽取和实体关系抽取的方法进行了改进，针对实体抽取提出了一种CWATT-BiLSTM-LSTMd模型。在实体抽取的基础上进行实体关系的抽取，为解决实体关系抽取中远程监督的局限性，提出一种基于强化深度学习的RL-TreeLSTM模型。经实验验证，提出的模型取得了比基准模型更好的F值。在未来的工作中，在实体抽取已经取得了较好结果的基础上，对关系抽取研究还有待改进。关系抽取很大程度上依赖句法分析，然后实际应用中句法分析的结果可能出错，是否可以依据上层应用来自动调整句法分析的结果，也就是基于动态变化的网络结构进行学习。