APP下载

基于双模型识别的知识图谱可视化建模仿真

2023-03-29鹏,唐

计算机仿真 2023年2期
关键词:分词图谱实体

秦 鹏,唐 忠

(1. 桂林学院理工学院,广西 桂林 541006;2. 广西医科大学信息与管理学院,广西 南宁 530021)

1 引言

计算机技术与信息技术水平飞速提升,网络应用呈多元化发展。在互联网的日益普及下,网络逐渐演变成信息与知识的主要获取渠道,但与日俱增的数据量、越来越复杂的内容与形式,都不断加剧着目标信息的寻找难度。为更便捷地找到目标信息,语义网、万维网等[1,2]搜索引擎层出不穷,其中,由语义网衍生出的知识图谱[3]最具研究价值与应用价值。知识图谱通过字符串符号映射,根据语义关系连接物理世界的实体与概念,形成有向或无向的语义网络。此种知识表达模式不仅可以实现知识间的智能推理,而且能为用户提供与检索词对应的实体结构化信息。

随着大数据时代的到来,知识图谱更是在诸多关键领域中发挥着重要作用,建构方案也成为热点研究课题。例如:电力领域中,郭榕等人[4]利用模式层、数据层等部分,架构出电网故障处置知识图谱,该方法通过综合运用TextCNN、LR-CNN、BiGRU-Attention等多种深度学习模型,有效解决了词错分、候选词冲突等问题,有效性与应用性较为理想;教育领域中,李永卉等人[5]利用Protégé软件,将本体转换为资源描述框架下的三元组数据,把映射至图数据结构上的数据储存至Neo4j图数据库中,得到诗词知识图谱,该方法充分发挥出检索、分析、应用等功能作用,有助于知识图谱得到进一步开发与探索。

可视化技术[6]的发展,使可视化知识图谱被广泛应用且优势显著,不仅能提升数据的直观性,而且便于查询等操作。因此,基于文献方法优势,采用深度学习技术,设计一种可视化知识图谱建构模型。该方法的研究重点如下:

1)jieba分词工具经动态规划找出最大词频组合,有助于实现高准确性与高效率性的知识图谱构建;

2)文本分类模型中注意力机制的加权属性,有助于提高全局信息的处理效果;

3)以深度学习的BiLSTM-CRF算法与BiGRU-Attention模型为基础,设计知识实体识别模型与实体关系识别模型,能更好地联立词向量与语义之间的联系,更精准地提取出实体关系,为知识图谱建构奠定基础。

2 可视化知识图谱建构模型整体架构

预处理待建图谱的数据集,利用知识实体识别与实体关系识别方法,结合开源的Neo4j图数据库[7],建立可视化知识图谱建构模型,如图1所示。该模型的四个主要部分是:数据源层、预处理层、识别层、建构层。

图1 可视化知识图谱建构模型

2.1 知识图谱数据预处理

针对数据集中存在缺失、冗余等问题的数据类型,采用清洗、分词、分类等处理手段,减少无效信息,为后续操作提供高质量数据集合,提升知识图谱建构效率。预处理方法的实现流程描述如下:

1)清洗:根据停用词表[8],直接去除符号、表情等无效字符串;对于信息项空白等缺失类数据,如果不能进行有效填充则去除;对于超文本标记语言标签、网络地址等冗余类信息,直接去除。

2)分词:该阶段的处理结果决定知识图谱的实用性与可靠性,采用jieba0.42.1版本中文分词工具[9]。经前缀词典词图扫描输入的句子,由隐马尔可夫模型[10]进行识别,通过维特比算法的动态规划计算,得到最优状态序列,完成分词处理。

假设t、t-1、t+1时刻下词i与词o的状态分别是it、ot、it-1、ot-1、it+1、ot+1,两词的初始状态与结束状态分别是i0、o0、ite、ote,则利用下列隐马尔可夫模型识别数据

(1)

其中,P(·)表示词当前状态的受影响指数;{it-1,ot-1,…,i0,o0}表示词i与词o的历史状态;{ite,ote,…,it+1,ot+1,it,ot,it-1,ot-1,…,i0,o0}表示两个词从初始到结束的全部状态。

通过维特比算法动态规划计算识别模型,查找出最优状态序列。已知词i、o、ι、j,若t时刻下词i的单路径集合是{i1,…,it},则该集合中的最大概率求解公式如下所示:

ιt(i)=max{i1,…,it}P(it-1,ot-1,…,i0,o0|λ)

(2)

其中,λ表示任意词的任意状态。

由此推导出词ι的递推公式

(3)

其中,k、l表示词的两种状态,pkl表示两状态间的转移概率;g表示词的观察状态,plgt表示t时刻下词状态从l状态转变为观察状态的概率。

针对t时刻下词i的单路径集合,利用下列公式得出词频最大的前n个词

jt(i)=arg max(ιt-1(k)pklplgt)

(4)

则t+1时刻下词i的动态规划结果如下所示

i′t+1=arg max(ιt(i))=jt+2(i)

(5)

经整合,得到由n个词构成的分词序列表达形式,如下所示

I=(i′1,i′2,…,i′n)

(6)

3)分类:基于深度学习的卷积神经网络[11],构建分类模型。分类流程如下所述:

①输入层:输入经过分词处理的数据;

②卷积层:假设句子m中的词τ经嵌入式表示法[12]处理后,得到词向量xmτ,通过双向循环神经网络[13],取得正反方向的两种特征编码h′mτ、h″mτ,如下所示

(7)

③池化层:融合注意力机制[14]与双向门控循环神经网络[15],构建双层级网络层,针对词与句子对语义影响的权重比,提取特征。根据卷积层得到的特征编码h′mτ、h″mτ,利用tanh激活函数,取得基于注意力机制的词向量x′mτ,通过下列sigmoid激活函数求解其权值ωmτ

(8)

其中,x′表示融入注意力机制的任意词向量。

根据所得权重ωmτ与特征编码h′mτ、h″mτ,生成句子m的双向特征编码h′m、h″m,如下所示

(9)

结合sigmoid函数解得的句子权值ωm与网络的隐藏层信息,得到数据的句向量,如下所示

(10)

④全连接层:拼接所得全部句向量,得到全连接层的输出项(S′|S″);

⑤softmax函数层:利用该网络层的二分类模型,完成数据分类

L=softmax(ωS′|S″×(S′|S″)+b)

(11)

其中,ωS′|S″表示输出项(S′|S″)的权值,b表示偏置项。

2.2 基于深度学习的知识实体识别

在深度学习的BiLSTM-CRF算法[16]中,添加BERT模型[17],建立知识实体识别模型,加强语义关联度。模型实现知识实体识别的步骤如下所述:

1)输入层:把预处理过的语料集输入知识实体识别模型;

2)BERT层:采用BERT模型的自注意力机制函数Att(·)取得字向量,作为下一层的输入项

(12)

其中,Q、K、V分别表示字向量矩阵,d指代矩阵Q、K的组合维度。

3)编码层:经双向长短时记忆网络[18]处理,完成数据编码。假设t时刻下记忆单元c、遗忘门f、输入门r、输出门R的输出结果分别是tanh(ct)、ft、rt、Rt,则通过下列公式得到编码项ht

ht=ftrtRttanh(ct)

(13)

4)解码层:该层通过条件随机场模型[19]实现解码处理,提升知识实体的识别准确度。若输入序列与输出标签序列各是X、Y,yq、yq+1分别为序列Y中的两个连续标签,则知识实体的分值s由下式解得

(14)

其中,Ayq,yq+1表示两标签间的转移矩阵。

Y′=argmaxs(X,)

(15)

5)softmax层:利用式(11)分类处理所有实体;

6)输出层:训练模型,用取得的最优模型,输出测试集的知识实体识别结果。

2.3 基于深度学习的实体关系识别

面向BiGRU-Attention模型,引入BERT模型,构建双注意力机制的实体关系识别模型,在保留关键数据的前提下,提高实体关系的识别准确度。实现流程分为以下六个步骤:

1)输入层:在模型中输入待识别的知识实体;

2)嵌入层:利用BERT模型构建实体向量,经词嵌入与位置嵌入处理,传输至下一层;

3)编码层:假设t时刻下双向门控循环单元网络的隐藏状态及权重为ut、ωut,则所得输出编码h′t的表达式如下所示

h′t=sigmoid(ωut×ut+b)

(16)

4)机制层:运用双重注意力机制与式(8)~(10),得到句向量;

5)分类层:利用式(11)分类句向量;

6)输出层:重复运行第2)~第4)步,训练模型,针对测试集,得到最优模型输出的实体关系识别结果。

2.4 知识图谱可视化实现

为实现知识图谱可视化,将识别的知识实体与实体关系储存至Neo4j图数据库中,绘制知识图谱。绘制流程如图2所示。

图2 知识图谱可视化实现流程图

3 实验研究

3.1 数据集与评价指标选取

从百度开放数据集的人工标注数据集合中随机抽取1000句中文语料,作为知识图谱的建构对象。将前300句与后700句分别作为模型的测试集与训练集。通过不断训练、更新,得到本文模型中两个识别模型的最优参数,如表1所示。

表1 建构模型参数设置

(17)

(18)

其中,模型的准确程度与对数损失函数指标呈正相关,J(θ,θ′)值越大,模型建构的知识图谱越精准;模型的有效程度与F1指标呈正相关,F1值越高,模型性能越好。

3.2 知识实体识别效果分析

图3为不同方法下损失函数随迭代次数变化的曲线走势图。

图3 不同方法的知识实体识别效果评估示意图

根据图3可以看出:本文模型的指标值与迭代次数之间存在一定的线性关系,提升幅度较大且速度较快;而对比方法则因领域限制,指标值始终低于本文模型。这说明当迭代至一定次数后,本文模型即可根据预处理后的高质量数据集,通过在BiLSTM-CRF算法中添加BERT模型,精准识得知识实体。

3.3 实体关系识别效果分析

表2为实体关系正确识别数量对比结果,图4为F1值对比结果。

表2 正确识别数量

从表2中的数据可以看出:对于正确识别数量指标,本文模型仅在作者、首都及人数三类关系上,各出现一次错识别情况,而对比方法则因较强的领域性与针对性,仅识别出极少部分实体间的关系。

图4 不同方法的实体关系识别效果评估示意图

根据图4可以看出:对于F1值,各方法的数值变化走势与实体关系识别环节的实验结果大同小异。以上分析说明,本文通过融合BiGRU-Attention模型与BERT模型,建立双注意力机制的实体关系识别模型,在保留关键数据的前提下,使词嵌入与位置嵌入处理得以有效开展,令词向量与语义间的关联更加紧密,因此,既取得了优越的实体关系识别效果,还拓宽了该模型的应用范围与发展前景。

4 结论

知识图谱作为高效的知识表达模型,在人工智能技术的推动下,得以广泛应用。不论是在个性化推荐领域还是数据挖掘领域中,知识图谱通过让计算机学习人的语言交流方式,快速获取目标知识间的逻辑关系,令反馈给用户的信息更具智能性。因此,对知识图谱建构技术展开研究意义重大。尽管本文模型适用性较强,但仍存在以下几个不足之处:选用的分词工具对于英文文本不具备良好的适用性,应尝试采用对中英文均具有较高准确度的分词工具,打破模型的语料限制;实验数据量较少,今后应针对大规模数据集建构知识图谱,探究模型的处理效果;将图谱后续使用场景对建构模型的影响作为下一阶段的研究方向。

猜你喜欢

分词图谱实体
分词在英语教学中的妙用
绘一张成长图谱
前海自贸区:金融服务实体
结巴分词在词云中的应用
结巴分词在词云中的应用
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
主动对接你思维的知识图谱