面向中文中医药领域的命名实体识别
2021-10-29雷迪张璞
雷迪,张璞
(1.河北地质大学,河北石家庄,050000;2.河北政法职业学院,河北石家庄,050000)
0 引言
中医药是中华文化的瑰宝,历经上千年的传承,形成了以经验为依据的独特理论体系。因此,对这些宝贵的中医药治疗医案进行数字化、结构化的知识构建,对中医药信息检索与临床应用、挖掘中医辨证规律等方面具有非凡的指导意义。所以,对这些医案中,相关病症、方剂、治疗手段等实体的正确提取,有利于推进中医药知识结构化、数字化、智能化的建设,进一步推进中医药领域的发展。
命名实体识别作为知识图谱中的一部分技术,在自然语言处理特别是通用领域,已有多种模型,并且效果较好。然而针对中文的复杂语义关系及中医药领域中的特定语义信息,比如疾病名称、中医药物等实体,当前大多命名实体识别模型还无法对这类实体进行准确的判断。
针对此类问题,本文提出使用一种融合中医药领域字、词信息,运用Lattice-LSTM-CRF 解决中文中医药特定领域的命名实体识别方法。使用Lattice 对中文语言命名实体识别的实体边界划分优势,结合中医药领域词信息的字符特征进行输入。同时,在领域专家的指导下,运用BIOES 语言标注方法自行构建中医药医案的数据集。本文所提出的方法可对中医药医案中的中医人体基础、中医治疗手段、病症医治药物等实体边界进行有效的确定。
1 基于Lattice-LSTM-CRF 在中医药领域的命名实体识别模型
本模型主要考虑中文词级和字级信息,经过Lattice-LSTM-CRF 几部分。首先通过Lattice 输入句子信息后,通过BILSTM 捕获句子的上下文信息,理解其复杂的语义关系。最后利用CRF 将句子的语义表示进行判别和解码,获得最优标记序列。整体结构如图1 所示。
图1 Lattice-LSTM-CRF 整体结构
■1.1 Lattice-LSTM
我们使用BIOES 标记方案进行基于词和基于字的命名实体识别标记。句子S可以表示为S=c1,c2,c3…,cm(共m个字符),如图2 所示,基于字的模型可表示为其中j为句子中的索引值,c为字符信息,x表示文字的向量化表示。经过Bi-LSTM的输入门、遗忘门和输出门计算,公式如下:
其中i、o、f分别表示LSTM的输入门、输出门、遗忘门信息。Wc和bc是模型的参数。若将句子S看做基于词的表示,句子S=w1,w2,w3,… ,wn(其中wi表示第i个单词的表示)。b,e分别表示S中单词开始和结束的索引值,则经过Bi-LSTM的输入门、遗忘门和输出门计算,公式如下:
由于标注序列均是在字后面进行的标注,所以对于词级信息,LSTM 部分没有输出门信息。如图2 所示,由于Lattice-Lstm 是考虑如何将当前位置索引为j的cj中能够融合潜在的w的信息,将融合了词的更新状态送入LSTM 中,所以考虑在LSTM的输入门位置更新cj。其中这一过程需要增加一个输入门的向量
图2 基于字、词信息的Lattice-LSTM
对该向量进行归一化的处理:
得到更新后的cj:
如图3 所示,将更新的cj重新放入LSTM 中进行训练,去掉LSTM 最后的输出层softmax,将信息放入CRF 中,利用其转移特征来对标签进行语义约束。
图3 经过Lattice-LSTM 后输入CRF的特征信息举例
■1.2 CRF
CRF 是一个判别式模型,也是一种无向的图模型。可以看作是最大熵马尔可夫模型在标注问题上的推广。它可以通过特征函数来学习状态间的关联。如图4 所示,对于本文来说,利用CRF 中输出元素的前后关联性,来对中文中的中医药领域标签进行标签前后的约束。
图4 CRF 中进行Viterbi 解码示例
对特征函数进行简化,将两种特征函数此时都用f表示,权重都用w 表示为:
给定一个输入序列x,可以计算出输出序列为y的概率,公式如下,其中n为序列的长度。
可以把Z(k) 看成是所有输出序列的得分之和。最后采用L2 正则化的句子级对数似然损失训练模型,防止小样本数据实验过拟合。
而命名实体识别任务本质上是一个seq to seq的任务,所以最后得到的结果还应转化为相应标签。这一部分,我们使用CRF 中的一阶Viterbi 算法在本模型对应的输入序列上找到得分最高的标签序列。
2 实验
本文数据集来自于中医药专家对多种病症治疗的中文中医药治疗医案,并且以中医药学科体系为核心,遵循中医药学语言特点,借鉴语义网络的理念,建立的一个中医药学语言集成系统TCMLS 为依据,在专家指导下将中医药的医案文本数据分为6 类不同标签,共标注字数71902,实体10692 个,标注类别如表1 所示,对其相关实体进行BIOES 标注。
表1 6类标签的划分及示例
本实验取数据集的80%作为训练集,10%作为验证集,10%作为测试集。实验最终选取常用的精确率 P、召回率R 和F1 值对命名实体识别结果进行评价。为了验证本文方法的有效性,我们设置了以下4 个实验。
LSTM-CRF:LSTM 捕捉句子信息,理解语义内容,CRF 对标签进行约束,更好的进行命名实体识别任务。
BiLSTM-CRF:BiLSTM由前项LSTM和后项LSTM组合而成,可以更好的捕捉上下文的语义信息。效果优于LSTM-CRF。
Lattice-LSTM-CRF:将分词信息带入LSTM,能够将字符级别序列信息和该序列对应的词信息同时编码供模型取用,丰富了语义表达。对于中文中医药文本数据效果明显。
Lattice-BiLSTM-CRF:结合字、词信息同时,捕捉上下文语义,更好的理解中医药语义信息,可以看出F1 值最高,效果最好。实验结果如表2 所示。
表2 4个实验对比结果
3 结论
本文将Lattice-LSTM-CRF 模型引入到中文数据的中医药领域命名实体识别研究。通过标注的中医药医案数据集发现,相比传统的LSTM-CRF 实验,Lattice-LSTM-CRF 更具有实验优越性,对中医药医案中的实体边界的确定有更好的效果。本文对中文中医药领域中的6 类实体进行了很好的识别。在今后研究中,可以针对特定领域的词信息及上下文的相关性,提前进行词信息的预处理,比如构建相关词典。使Lattice 可以更好的利用相关信息,更好的在命名实体识别任务中凸显其效果。