APP下载

基于智能算法的教育知识问答系统设计①

2021-11-02林丽星

关键词:向量卷积实体

林丽星

(闽西职业技术学院,福建 龙岩364021)

0 引 言

近几年来,有关深度学习知识展示研究的不断深入以及人工智能技术发展,教育行业也迎来了新的历史发展纪元[1]。国内外有关知识图谱的研究也取得一定的进展,多数体现在构建通用数据库、分析抽取知识等方面,特别是在农业、医药卫等领域取得突破性的成就[2]。同时常用的知识图谱问答系统技术为语义分析方法和搜索排序方法,常用的对话模型设计方法有任务导向模型和通用对话模型[3]。但是目前教育知识问答系统设计过程中有关问句分析方面仍然存在突出问题。综上分析,此次研究在前人的研究成果上,提出构建教育知识问答系统的关键技术,通过卷积神经网络和双向长短时记忆模型获取全局特征和局部特征,并把实体识别转变为最优序列标注,以此构建实体识别模型进行问句分析。

1 教学知识问答系统的关键技术

1.1 教育知识问答系统算法相关技术

此次研究在知识图谱的基础上,构建基于智能算法的教育知识问答系统。该系统的主要目标是利用简便、准确的语句回答用户的问题,其主要实现步骤是问句分析和答案提取。前者是指通过词性标注、实体识别、语义消除等技术获取用户自然语言中包含的语义信息,后者是指利用知识图谱查询相关知识并提供正确答案的过程。区别于通过上下文信息进行的无监督学习方法,也就是常用的word1vec算法,研究使用Keras Embedding作为文本表示,它是利用大量神经元训练模型的一种监督学习方法,可以作为卷积神经网络和双向长短期网络记忆模型的输入[4]。实体识别是通过自然语言处理的方法获取用户问题中的实体名称。属性连接是找出实体的相关属性。候选三元组是找到问句中的实体、属性、属性值。查询构建是指依据用户问题、查询模板、识别实体信息和属性,获取候选三元组,进而得到候选属性值。知识图谱在逻辑上包括模式层和数据层,本文的知识图谱采用自顶而下的构建方法,其常用的基于机器学习的知识抽取方法包括特征和神经网络两个方面[5]。常用的神经网络包括CNN-CRF(Convolutional Neural Networks-Conditional Random Field)和LSTM-CRF(Long Short-Term Memory)。

1.2 BiLSTM+CNN-CRF算法的实体识别设计

研究选用的实体识别方法包括Bi LSTM,CNN,CRF三大模块,将词向量分别输入CNN和BiLSTM两大模块,得到局部和全局特征并拼接对应的字符向量和词向量,然后通过全连接层和条件随机场模块完成解码,从而获得一个最优标记序列,采用的算法框架如图1所示。研究引入门概念判断是否需要保留历史信息和是否需要输入信息[6]。遗忘门f t功能是判定遗弃哪些历史信息,h t-1和x t分别指输出上一元素的和输入当前元素,δ是指Sigmoid函数,w f是遗忘门的权重矩阵,b是指偏置向量。函数输出值范围为[0,1],遗忘门输出数值为1时,即保留该历史数据,反之删除数据。计算公式为式(1)。

图1 基于BiLSTM+CNN-CRF算法

输出门决定信息是否被输出,也包括两个部分,其一是Sigmoid函数所确定的信息输出内容,其二是通过tabh函数相乘o t得到最终输出信息h t,w o是遗忘门的权重矩阵,计算公式为式(2)。

BiLSTM的输入为字符特征向量,可以实时进行正向输出和反向输出的拼接,从而得到双向特征序列,可以表示为。然后通过tabh函数处理,隐藏层输出序列为(h1,h2,h3,…,h t)∈R n*m。假注体系的标签数量为,m维向量经dropout函数转化得到k维,所获得的句子级别的文本特征是p,用表示p=(p1,p2,…,p n)∈R n*k。矩阵中每个向量均是在第i个分类中第j个标签的得分情况。经过softmax规范化处理BiLSTM层的输出表达式为式(3)。

w和b均指模型的训练参数,h(w,b)(x(i))是指第i个样本的预测值y,每个向量的取值范围为[0,1],维度总和为1,标注体系中的标记和维度相互对应,维度值越高,先用那个的标记概率越高。

研究使用卷积神经网络进行字符形态特征提取,同时结合向长期记忆网络特征,避免提取过程中的信息过度损失,局部特征提取模型如图2所示。以Tensor Flow为例,通过CNN提取字符特征,首先利用Padding函数填充字符向量输入后的占位符,然后经卷积层完成字符特征提取操作,最终经池化层完成降维操作,并输出字符级特征。卷积网络由于权值共享非常易于作为文本类核图像处理,每组连接共享一个权重,减少参数成本[7-8]。此次研究进行多次实验选取最优参数进行特征提取,输出局部特征的计算公式如式(4)所示。

图2 基于CNN的文本特征提模型2.3.模型结果检测

b是指特征偏置,c是指输入的字符向量矩阵,ReLU激活函数用f表示。池化层的功能是整合特征的语义相似度,然后经过的下采样步骤完成降维操作,减少计算空间的成本,且通过dropout函数避免过拟合现象。最常用的池化方法有最大池化法、平均池化法。池化的计算表达式为式(5)。

研究选取的CNN模型是一层卷积和一层池化的结构。完成CNN的输出,并进行和字符集向量矩阵的拼接操作,最终得到特征融合矩阵进行全连接层的输入,特征融合矩阵可以表示为p'(n,k+m)。研究全连接层使用的激活函数和损失函数分别是ReLU函数和BP算法。研究的实体识别算法流程图如下,通过数据爬取和数据预处理进行数据准备。第一步创立实体标注集,标注爬取到6个人工智能领域的职位信息。第二步,创立技术领域词典,用于对比验证加入实体词典的效果。第三步,构件基于Keras Embedding词嵌入模型。第四步,训练和预测的实体识别模型。第五步,输出候选实体。研究利用二类混淆矩阵进行算法性能评价,具体评价指标包括Preicision,Accuracy,F1-Score。

2 模型结果检测

2.1 超参数分析

所构建的实体识别模型中学习率和dropout对模型效果有着直接的影响,实验通过设置不同的学习率和dropout对比分析模型的F1值,从而找到最佳的模型参数。结果分别如图3(a)和(b)。不同学习率条件下,随着迭代轮数的增加,F1值不断提高,并在迭代轮数为2时F1值逐渐趋于稳定。同时学习率为0.01时,F1值更高,模型效果更佳。两种不同的dropout条件下,F1值的表现出来的差异不大。dropout为0.1时,模型的F1值的变化的趋势更为平稳,因此dropout为0.1时,模型效果更佳。经过多次实验,最终确定迭代轮数为50时,模型的损失值最小。

图3 不同学习率和dropout下的模型效果对比

实验然后确定滤波器的最佳数量,使CNN模型达到最佳特征提取。选择数量过多,容易出现过拟合的情况,选择过少,极易出现欠拟合的情况。滤波器数量在10~30范围内模型F1值结果如图4(a)所示。滤波器数量分别取10、20、30时,随着迭代轮数的增加,F1值迅速升高,且在迭代轮数为4时均出现F1值变化无规律的情况。相对来说,滤波器数量为10时,F1值在不稳定区间变化较小。滤波器数量在2~9范围内的模型F1值结果如图4(b)所示。平均值和最大值均表示在数量为6时,模型的F1值最高,效果最优。与此同时,卷积窗口大小设置为5,模型的效果最优。

图4 滤波器数量对模型的影响

2.2 模型性能分析

实验接下来进行不同输入向量的对比,结果如图5所示。Keras Embedding相对于传统的word2vec词嵌入模型利于下一层卷积神经网络的输入,具备更好的模型识别效果。Keras Embedding模型的F1值稳定在85%以上,而传统的word2vec词嵌入模型的F1值稳在85%以下。值得注意的是,迭代轮数在1.5以下时,Keras Embedding模型的F1值低于传统的word2vec词嵌入模型的F1值,且F1值均在75%以内。

图5 两种词嵌入方式对模型的影响

实验最后验证所提出的实体识别模型的性能,四种模型分别为LSTM-CRF,Bi LSTM-CRF,BiLSTM+CNN-CRF、字典+BiLSTM+CNNCRF,结果如图6所示。整体来看,四种模型均具有一定的效果,但BiLSTM+CNN-CRF实体识别模型的优势更为明显。LSTM-CRF和BiLSTM-CRF两种模型结果显示双向神经网络比单向神经网络语义分析提取效果更好,两种模型的准确率分别为86.99%和87.03%,召回率分别为82.32%和86.98%,F1值分别为84.59%和87.01%。

图6 不同模型的对比结果

3 结 论

此次研究针对现阶段利用智能算法进行教育知识问答系统设计中存在问题,提出利用Bi LSTM+CNN-CRF算法进行知识问答系统中实体识别。超参数分析结果表明,当学习率为0.01,dropout为0.1,卷积窗口大小为5,滤波器数量为6,实体识别模型得到最佳效果。词嵌入模型对比表明,Keras Embedding词嵌入模型的F1值高于传统word2vec模型5%左右。BiLSTM+CNNCRF实体识别模型的性能均明显优于LSTMCRF和BiLSTM-CRF模型,该模型的准确率、召回率、F1值三者分别为87.43%,87.88%,87.66%,且模型比LSTM-CRF和BiLSTM-CRF模型的F1值高3.04%和0.62%。由于本人的时间和精力有限,研究未考虑实体识别缺陷这一问题,这在下一步研究工作中需要进一步完善。

猜你喜欢

向量卷积实体
向量的分解
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
聚焦“向量与三角”创新题
从滤波器理解卷积
实体书店步入复兴期?
2017实体经济领军者
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”