APP下载

基于语义理解和AI 的电力设备信息检索方法

2022-11-18余少锋廖崇阳

电子设计工程 2022年22期
关键词:查全率查准率信息检索

佘 俊,罗 勇,余少锋,廖崇阳

(1.南方电网公司调峰调频发电有限公司信息通信分公司,广东广州 511442;2.南方电网公司调峰调频发电有限公司西部检修试验分公司,贵州兴义 562400)

在现代智能电力系统中,电力数据结构复杂、类型多、存储量大。电网大数据通常分为结构化和非结构化两种,两种不同结构的大数据在电网中有不同的应用价值[1]。在这种情况下,结构化数据可用于战略制定和统计分析预测趋势[2]。非结构化数据所占比例较大,因为其包含大量由“重要内容经常被记录”所产生的文本数据,这些大容量、高价值密度的有用信息能够提高企业的效率和收益[3]。对于电力企业来说,如何检索这部分数据,将对企业的战略部署和发展方向产生重大影响。因此,实时检索获取电力设备运行信息具有现实意义[4]。

在电力设备中,采用基于搜索引擎的信息检索方法,常常会存在信息超载和词汇不匹配的现象,使得用户向搜索引擎提交的查询语句往往不规范,给查询过程造成困难。虽然基于语义相似性计算的电力设备信息检索方法已经取得了很大的进展,但是仍然没有从根本上提高检索性能,对词与词之间的语义关系缺乏深入研究。同时,由于对语义关系的研究不受语境的限制,从而造成检索词的混乱。针对上述问题,该文提出了基于语义理解和AI 的电力设备信息检索新方法。

1 信息检索方法设计

1.1 电力设备信息特征提取技术

该研究通过提取文本特征剔除多余虚词,然后借助分词工具依次标注电力设备信息中的分词与词性[5]。使用词频加权方法分析文档权重,其公式为:

式(1)中,tfik表示想要检索的电力设备信息在检索文档中出现的次数;N表示电力设备信息文档数量;nk表示电力设备信息全部文档中出现想要检索的电力设备信息的文档数量[6]。

通常,词组是构成文档的关键部分,一篇文章中最频繁出现的一组词为中心主题,通常用TF 词频度来衡量类似文本的特点[7]。文字出现的频率越低,说明文本分类识别的准确率越高。因此,利用文本频率和词频度的乘积可以表示特征空间的测度值,再通过调整权重的方式突出关键字。

1.2 基于语义理解的电力设备信息处理技术

基于语义理解就是发现词和符号所表达的“意义”,根据这一思想,语义理解也需要一个以句子意义作为最终理解和表达的形式符号系统,其描述公式为:

式(2)中,CE表示语句类的表达式;S表示语义块;C表示描述对象;f()和g()表示约束函数[8-10]。

结合上述公式,设计基于语义理解的电力设备信息处理步骤,如图1 所示。

如图1 所示,处理语义信息时,虚线框中的句类假设和检测、语义块构成等作为处理环节,输入自然语言语句,再输出相应的句类表示和词描述[11-12]。

具体处理步骤:在信息预处理之后,基于句子中怀疑词所包含的概念对可能的句型作出假设,并基于所包含的概念性知识来判断句子的类型。基于此,利用语义块来判断词语,假定在处理过程中未能通过上述步骤,将导致追溯,此时需要再次进行“假设”和“探测”[13]。

1.3 查询扩展技术

查询扩展技术是语义检索的关键技术,通过添加与原始查询语言查询语义相关的词或概念,使查询时间较原始查询长,从而提高了文档检索效率、查全率和准确性[14]。通过对相关内容和用户需求的比较,提取语义信息;对于知识库中存在的词组,使用语义词典对语义进行扩展处理,并以表格形式展现给用户,供用户自行识别[15]。查询字符串被扩展成搜索引擎查询,查询结果被聚类并呈现给用户。查询扩展流程如图2 所示。

具体查询扩展过程:首先应确定原始查询串r;然后扩展查询串R,经过分词处理后,将原始查询串r分解成n个检索关键词[16]。其中,关键词语义相似度最为接近的同义词数量为m1,m2,…,mn,将其扩展为r11,…,r1m1,r21,…r2m2,…,rn1…,rnmn词组,并确定扩展查询子串为k=m1×m2×…×mn+1 个;最终得到的各个查询子串为:

结合式(3),可得到扩展后的查询子串。

1.4 基于语义理解的AI检索模型构建

基于上述内容,构建基于语义理解的AI 检索模型,如图3 所示。

由图3 可知,该模型主要是由四个模块组成的,如下所示:

1)预处理模块

为便于后续的相似度计算,在用户查询之前采用分词和删除停用词的预处理方式,将停用词转换成文件矢量形式。

2)语义关系分析模块

通过预处理模块搭建语义知识库,使不同词语形成语法依赖关系。语义概念空间是一种能将语言进行量化处理的空间,通过语义判断能够解决概念间隐含的数据结构问题。量化机制中的事态信息量级如表1 所示。

表1 事态信息量级

3)判别信息空间模块

在选择信息空间时,要根据三种不同的语言信息量,通过句法依赖图进行判断。

4)语境分析和查询模块

识别出信息空间后,对文档数据库中的各个数据进行匹配,使得数据可以对应于文档,然后对文档进行排序,并返回查询结果。

2 实验与分析

为了验证基于语义理解和AI 的电力设备信息检索方法的有效性,结合F 供电局供电情况进行实验验证分析。

2.1 F供电局概况

F 供电局是某供电公司直属的企业,主要负责电力供应,目前供电客户为300 多万户,在2020 年该供电局最高供应负荷可达到1 500 万千瓦。截至到目前,F 供电局共有110 kV、220 kV、500 kV 输电线路长4 500 km 左右,主变压器为五百多台。F 供电局主要电力设备如表2 所示。

表2 F供电局主要电力设备

2.2 电力设备信息集

从F 供电局的变压器、断路器、变电站和电源开关四种设备中提取电力设备信息,构成信息集,信息集中保留了电力设备共600 条信息。

2.3 实验指标确定

1)信息查全率

设检索出的变压器、断路器、变电站和电源开关四种设备电力设备信息为a,总信息量为c,信息查全率计算公式为:

由式(4)可知,总信息量c中除了检索到的全部信息外,还包含历史信息库中的信息,信息查全率越高,说明从全部信息中检索到的变压器、断路器、变电站和电源开关四种设备电力设备信息就越全面。

2)信息查准率

设检索出的变压器、断路器、变电站和电源开关四种设备电力设备信息为a,其余信息量为b,由此计算信息查准率:

由式(5)可知,信息查准率越高,说明从全部信息中检索到变压器、断路器、变电站和电源开关四种设备电力设备信息的精度就越高。

2.4 实验结果与分析

2.4.1 信息查全率

结合表2 确定检索到的总信息数量为7 544 条,分别使用基于搜索引擎的电力设备信息检索方法、基于语义相似度计算的电力设备信息检索方法和基于语义理解和AI 的电力设备信息检索方法对信息查全率进行对比分析,结果如图4 所示。

由图4 可知,使用基于搜索引擎的检索方法在前5 次计算过程中,信息查全率大于60%,在后4 次计算过程中,信息查全率大幅度下降,说明该计算过程受到了历史信息库中的信息影响;使用基于语义相似度计算的检索方法在9 次计算过程中,信息查全率大于60%;使用基于语义理解和AI 的检索方法在9 次计算过程中,信息查全率始终大于80%。

2.4.2 信息查准率

对比分析不同方法的信息查询结果,如表3所示。

由表3可知,基于语义理解和AI的电力设备信息检索方法的查准率接近100%,具有精准检测结果。

表3 不同方法信息查询结果对比分析

3 结束语

该文提出一种基于语义理解和AI 的电力设备信息检索方法,有效提高了检索查全率和查准率。

该方法的主要特点:相对于传统检索方法,基于语义理解扩展原始的关键字集合,得到新的关键字集合。此集合更适合于用户希望表达的内容,因此使查询更精确;该方法可以快速建立和优化索引,同时利用查询扩展模块对关键字集进行检索,利用索引技术实现快速高效的检索。

猜你喜欢

查全率查准率信息检索
海量图书馆档案信息的快速检索方法
基于词嵌入语义的精准检索式构建方法
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
教学型大学《信息检索》公选课的设计与实施
中文分词技术对中文搜索引擎的查准率及查全率的影响
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例
基于Web的概念属性抽取的研究