APP下载

基于贝叶斯网络的航空化工材料信息快速检索方法

2024-05-07李彬蕙

粘接 2024年3期
关键词:贝叶斯网络

摘 要:提出了基于贝叶斯网络的航空化工材料信息快速检索方法。以飞机座舱软连接用胶粘剂为研究对象,利用有向无环图贝叶斯网络,根据局域条件概率,计算多个变量的联合概率分布,并对多个变量之间相关性分析。充分考虑检索信息边缘权值,在贝叶斯网络统一表示模型下,计算多变量字符排序,达到快速抽取检索关键词的目的。使用索引词描述检索语句,计算索引词近似度,引入K均值聚类算法,实现信息快速检索。实验结果表明,所研究方法召回率和准确率最大值分别是0.99和0.95,检索耗时最短为0.1 s,能够达到快速检索的目的。

关键词:贝叶斯网络;航空化工材料;信息快速检索;K均值聚类

中图分类号:TQ433.4+32

文献标志码:A文章编号:1001-5922(2024)03-0061-04

A fast retrieval method for aerochemical material information based

on bayesian networks

LI Binhui

(Shanghai Aircraft Design and Research Institute,Shanghai  2012104,China

Abstract:A fast retrieval method for aviation chemical material information based on Bayesian networks was proposed.Taking the adhesive used for soft connection of aircraft cockpit as the research object,the joint probability distribution of multiple variables was calculated based on local Conditional probability using Directed acyclic graph Bayesian network,and the correlation between multiple variables was analyzed.Fully considering the edge weights of retrieval information,the multivariate character sorting was calculated under the unified representation model of Bayesian networks to achieve the goal of quickly extracting retrieval keywords.The index terms were used to describe the search statement,the approximation of the index words was calculated,and the K-means clustering algorithm was introduced to realize the rapid retrieval of information.The experimental results showed that the maximum recall and accuracy of the proposed method were 0.99 and 0.95,respectively,and the shortest retrieval time was 0.1 s,which can achieve the purpose of fast retrieval.

Key words:bayesian network;aviation chemical materials;quick information retrieval;K-means clustering

近年來,关于航空化工原料的信息呈爆炸性增长,使得用户可以方便快捷地获取这些信息。然而,大部分用户获取的信息不完整。如提出了一种基于循环生成对抗网络的检索算法,首先构建了一种基于循环生成对抗网络的词项和信息互换模型,运用交互式学习法,在多个维度上,实现了对多模态数据的语义一致性约束[1]。提出了基于词映射构建伪查询的检索算法,利用词汇映射来构建伪查询语句,首先使用共享 Transformer获取查询上下文,然后使用查询和伪查询之间的双语交互注意机制获取查询的跨语言特征表达结果,最后通过双语交互排序来获得查询与文档的匹配分数,进而实现跨语言的信息检索[2]。为此,研究提出了基于贝叶斯网络的航空化工材料信息快速检索方法。该方法以飞机座舱软连接用胶粘剂为研究对象,

结合贝叶斯网络算法和K均值聚类算法,对信息进行快速检索。

1 航空化工材料胶粘剂

以飞机驾驶舱软性连接用的胶粘剂为例,用到的原材料主要有:

癸二酸,

山东齐鲁蓝帆塑料助剂有限公司;

三元醇,

武汉克米克生物医药技术有限公司;

乙二醇,

冰川冷媒(山东)环保科技有限公司;

丙酮,

广州富飞化工实力供应商;

催化剂,

江苏林越环保科技有限公司。

将癸二酸、乙二醇和三元醇置于三颈的瓶子中,在160~170 ℃温度下进行2 h的反应;最后,在220~230 ℃温度下放置聚酯反应催化剂进行2 h的反应。然后,将其脱水至预定分子质量,进行冷却取出,就可以进行聚酯的合成了。

胶粘试样的强度计算公式,可表示为:

C=KH

(1)

式中:K表示破坏荷载;H表示试样宽度[3]。

通过对所合成的聚氨酯胶粘剂的性质及一些影响其性质的因素的考察,对其添加了1%的催化剂,经过化学反应,得到二元、三元醇摩尔比为1∶0.3,异氰酸酯与聚酯的质量比例为1∶1的结论[4]。本产品具有良好的耐高、低温性能,适用于各类飞机座舱的软性连接。

2 基于贝叶斯网络的胶粘剂信息快速检索

将飞机座舱软连接用胶粘剂为研究对象,将信息多变量相互关系分析结果输入贝叶斯网络统一表示模型,以此快速抽取检索关键词。计算索引词近似度,引入K均值聚类算法,實现信息的快速检索。

2.1 基于贝叶斯网络的检索信息多变量相互关系分析

贝叶斯网络是一类不含回路的有向图,它可以用局部的条件概率表达出多个变量集的联合概率分布,也可以用来研究多个变量间的相关性[5]。基于此,构建的检索模型如图1所示。

因为化学材料胶粘剂的样本节点在逻辑上将信息取回的节点与被取回的节点分开,使得它们彼此独立,利用贝叶斯原理,可以求出分布的联合概率:

Pai|b=∑cPai|c→×Pb|c→×Pc→Pb

(2)

式中:i表示节点总数;c→表示信息库的单位向量[6]。

提取单位矢量的目标是将矢量中单一信息的影响纳入考量,从而计算出该矢量对信息检索节点以及被检索节点的影响[7-8]。

因此,待检索节点中样本节点的影响可表示为:

H1ai|c→=ωj∑ij=1ω2j0c→∧b→=1其他

(3)

式中:ωj表示第j个样本权值;b→表示待检索节点的单位向量[9]。信息库信息与待检索信息相似度越高,则权值越大[10]。

对于航空化工材料胶粘剂信息库和待检索信息的关系,在二者之间加入索引词节点,通过索引词计算这二者分布的联合概率:

Pai|c→=∑dPai|d→×Pd→|c→

(4)

式中:d→表示索引词节点的单位向量[11]。通过该计算结果,能够反映d→对ai和c→的影响,所以待检索节点中索引词节点的影响可表示为:

H1ai|d→=ωj∑ij=1ω2j0dj∧aj=1其他

(5)

用影响变量描述航空化工材料胶粘剂信息检索要求,能够避免用固定特征词描述检索而导致描述结果不全面的缺陷,更适合对胶粘剂信息的检索[12]。通过上述分析,明确了概率检索空间,具有更为坚实的检索基础。

2.2 基于Tag的检索关键词快速抽取

在胶粘剂检索信息多变量交互作用下,由于未考虑检索信息的边界权,且不同词项间的关联度并不相同,所以假定2个信息之间的相关程度是相同的,使用Tag进行检索关键词快速抽取。Tag标记是一种高层次的语义信息,它能反映出信息的主要内容,被用户标记的相关页面可以作为附加信息,估计胶粘剂下词项之间的关联程度,而这种关联程度可以作为信息的边缘权重,从而影响到最终抽取结果。因此,针对每一个标签,可以获得一个信息的重要性排名,最终获得的网页关键词可以被认为是一个集成了多种排名结果的过程,如图2所示。

在贝叶斯网络统一表示模型下,计算多变量字符排序,可表示为:

scorex=∑η1rankx,η

(6)

式中:x表示词项;η表示排序结果[13]。

从对相同词项进行多个排序的结果可以看出,排名分数较高的词最终的得分也很高,通过Tag标记能够有效解决多个交互文档序同时检索造成的检索量大的问题[14]。使用Tag的关键词抽取方式,在一个特定页面上,假设已标注出相应特征信息,就可直接从特定页面中抽取排名最高的关键词。

2.3 基于贝叶斯网络的信息快速检索

结合检索关键词抽取结果,将某一特定的检索关键词的重要性作为一个聚类问题,计算检索结果中的关键字和被检索对象之间的相似性,并预先设置相应的阈值。当接近值大于阈值时,表示提取与具体信息相关;反之,则不相关。不同的胶粘剂信息词在不同的标签词中所占的比例不同,因此,可以将胶粘剂信息词的索引重要程度视为一个集群问题。胶粘剂信息的类间接近度在文件集中被引导为索引词:

Ik=lgMmk

(7)

式中:M表示特定胶粘剂信息文档总数;mk表示第k个信息出现的文档数[15]。

基于该计算结果,使用索引词将材料信息文档内容描述出来的频率进行统一化处理,结果为:

Dk=IkmaxIk1,Ik2,…Ikl·α

(8)

式中:Ikl表示第k个信息在文档集合l中出现的导频率;α表示文档近似度系数。

使用索引词对检索语句描述,并通过以下公式计算索引词近似度。

simai|b=∑ni=1ωij·Dk∑ni=1Dk2·∑ni=1ωij2

(9)

设置阈值λ,当simai|b≥λ时,胶粘剂信息检索结果和目标检索相关,否则无关。

引入K均值聚类算法设计了如图3所示的信息快速检索流程。

引入K均值聚类算法能够将具有相同属性的信息聚集在一起,划分为多个种类,从而对具有不同属性信息开展精准化检索。

充分考虑胶粘剂信息中的噪声数据对K均值聚类效果所产生的干扰,通过聚类分析将具有相同属性的信息聚集为一类。根据胶粘剂用到的原材料,可将信息簇划分为癸二酸、三元醇、乙二醇、丙酮、催化剂这5类,K均值聚类目标是使检索平均误差达到最小,公式为:

minε=∑vr=5∑x∈Zr‖x-φr‖22

(10)

式中:r表示信息量;Zr表示信息对应的簇;φr表示簇Zr的均值向量。

通过引入K均值聚类算法进行精准化检索,降低检索误差。

3 实例分析

3.1 胶粘剂应用数据分析

飞机座舱边缘连接对聚氨酯胶的黏性有较高的要求,其中以聚酯为主的聚氨酯胶的黏性要比以聚醚胶为主的聚酯胶黏性要好,所以选择聚酯作为树脂组成成分。聚氨酯胶粘剂的胶接强度分析,如表1所示。

由表1可知,二元、三元醇摩尔比对胶水的粘接强度有显著影响,可通过调节二元醇与三元醇摩尔比而得到具有优良性能的聚酯。

3.2 仿真环境

为了能够验证基于贝叶斯网络的航空化工材料信息快速检索效果,建立了一个信息检索环境。该环境使用了如图4所示的检索引擎。

为使用户能够从数以亿计的原始网页库中迅速、方便地检索到检索结果,搜索引擎需要对这些原始网页进行预处理。通过一定策略,将网络上的特定信息提取出来,并反馈给用户,为用户提供快速、高关联度的信息服务。

3.3 检索指标

检索指标主要有2种,分别是召回率和准确率。

实际情况下,2个指标均较高,说明信息检索效果好。

3.4 检索效果分析

为了验证所研究方法的有效性,将其与基于循环生成对抗网络的检索算法、基于词映射构建伪查询的检索算法进行对比,结果如图6所示。

由图6可知,使用基于循环生成对抗网络的检索算法召回率和准确率最大值分别是0.79%和0.54%;使用基于词映射构建伪查询的检索算法召回率和准确率最大值分别是0.45%和0.38%;使用基于贝叶斯网络的快速检索方法召回率和准确率最大值分别是0.99%和0.95%。

为了验证所研究方法能够快速检索,对比3种方法信息检索耗时情况,结果如表2所示。

由表2可知,使用所研究方法相比于其他2种方法检索时间要短,其中检索原材料的最短时间为0.1 s,检索胶接强度的最短时间为3 s。

4 结语

(1)使用有向无环图贝叶斯网络,明确了检索信息多变量相互关系,在贝叶斯网络统一表示模型下,解决了传统方法只能单一抽取关键词的问题;

(2)在贝叶斯网络中引入K均值聚类算法,能够达到快速检索的目的。

【参考文献】

[1] 聂为之,王岩,杨嵩,等.基于循环生成对抗网络的跨媒体信息检索算法[J].计算机学报,2022,45(7):1529-1538.

[2] 李岩,郭军军,余正涛,等.基于词映射构建伪查询改善低资源跨语言信息检索研究[J].山西大学学报(自然科学版),2022,45(2):322-331.

[3] 高云梅,张淑慧.基于信息检索与K均值聚类的化工产品精准推荐算法研究[J].粘接,2023,50(3):132-135.

[4] 王丹,王玫.一种适用于内部信息统筹与服务对像信息快速检索仿真设计[J].粘接,2022,49(11):169-173.

[5] 刘思琦,孙晓宁.面向过程的信息搜索用户学习交互框架研究[J].情报理论与实践,2021,44(4):30-39.

[6] 陈翔,于池,杨光,等.基于双重信息检索的Bash代码注释生成方法[J].软件学报,2023,34(3):1310-1329.

[7] 戎军涛.用户认知导向的动态信息检索模型构建[J].图书馆,2022,328(1):69-76.

[8] 党小琴.基于本体论的数字图书馆信息检索技术[J].科技通报,2022,38(8):110-113.

[9] 张子建,刘俊宇,梁煜,等.基于知识图谱的智能变电站一次设备信息检索研究[J].电气传动,2022,52(5):70-75.

[10] 陈乐,刘迎春.基于用户需求挖掘的交互式信息检索算法设计[J].计算机仿真,2022,39(5):418-422.

[11] 杜刚,张磊,马春光,等.基于属性基隐私信息檢索的位置隐私保护方法[J].哈尔滨工程大学学报,2021,42(5):680-686.

[12] 叶承斌,李宏亨.基于LDAP的大数据浏览隐式反馈信息检索仿真[J].计算机仿真,2021,38(12):449-453.

[13] 肖筱南,赵小平.智能控制中一类随机信号的信息检索优化算法[J].西安石油大学学报(自然科学版),2022,37(5):123-126.

[14] 柳利芳,马园园.基于多视角对称非负矩阵分解的跨模态信息检索方法[J].山东大学学报(理学版),2022,57(7):65-72.

[15] 王海龙,柳林,林民,等.基于信息检索及k均值聚类的音乐个性化推荐算法[J].吉林大学学报(工学版),2021,51(5):1845-1850.

收稿日期:2023-10-16;修回日期:2024-01-08

作者简介:李彬蕙(1993-),女,硕士,工程师,研究方向:航空新材料设计应用;E-mail:chen19851221@126.com。

引文格式:李彬蕙.基于贝叶斯网络的航空化工材料信息快速检索方法[J].粘接,2024,51(3):61-64.

猜你喜欢

贝叶斯网络
贝叶斯网络在用户画像构建中的研究
基于贝叶斯网络的分类器研究
基于分布式贝叶斯网络的多故障诊断方法研究
无人机数据链测试与评估研究
基于贝叶斯网络的流域内水文事件丰枯遭遇研究
基于CHAID算法和贝叶斯网络的基金风险预警研究
基于兴趣预测和热点分析的联合推荐算法研究 
基于贝叶斯网络的企业财务风险研究
基于贝叶斯网络的城市居民出行方式研究
基于故障树贝叶斯网络的数控刀架故障研究