APP下载

基于语义相似度的数字文献推广信息智能检索算法

2022-11-23林宗英林民山

关键词:信息检索检索语义

林宗英,林民山

基于语义相似度的数字文献推广信息智能检索算法

林宗英,林民山

(泉州职业技术大学 智能制造学院,福建 泉州 362000)

:考虑到传统信息检索算法在检索数字文献推广信息时存在安全性差、检索效率低的问题,提出了基于语义相似度的数字文献推广信息智能检索算法。基于数字文献检索信息文档,计算了数字文献推广信息中检索词的相关度,根据语义相似度,计算数字文献推广信息的权重值,利用数字文献推广信息数据库的查询结果,结合李雅普诺夫定理,提取数字文献推广信息关键特征,根据采集原始数据集的时间,计算数字文献推广信息的平均检索概率,利用过滤器清理数字文献数据库的局部推广信息,采用全局过滤器,清洗数字文献数据库的推广信息,通过定义数字文献推广信息检索元素值,计算了关键词之间的语义相似度,结合数字文献推广信息检索算法设计,实现了数字文献推广信息的检索。实验结果表明,基于语义相似度的数字文献推广信息智能检索算法不仅可以提高数字文献推广信息的检索效率,还具有很高的安全性。

语义相似度;数字文献;推广信息;智能检索;特征提取;信息清洗

运用计算机信息技术对数字文献进行检索,既可提高数字文献推广信息的准确率,又能在保证数字文献推广服务质量的前提下,提高其工作效率[1]。但面对海量的数字文献,只能利用计算机信息技术来获取所需的信息,但这些数字文献的检索过程十分地复杂,且响应时间久[2]。面对专题性文献,若要获得完整的资料,研究人员只能靠人工逐篇筛选,各地数字文献数据库收录的数据不一样,即使大费周章也不一定能得到全面的研究结果[3]。因此,针对上述问题,本文基于语义相似度,对数字文献推广信息智能检索算法进行研究。

袁敏等[4]提出了一种基于云服务的信息智能检索算法,用来解决传统的信息检索方法的效率低等问题。首先,通过云服务逻辑结构,建立了检索模型,将活动服务器网页(Active Server Page,ASP)作为主要的索引要求,与ActiveX数据对象(ActiveX Data Objects,ADO)相结合完成检索模型的设置,通过云计算环境构建信息智能索引,利用云服务特性对检索信息实现分类别管理,方便客户准确地获取所需数据,实现基于云服务环境下的信息智能检索。实验结果证明,该方法相对于传统的信息检索方法,可有效地提高信息检索的准确率。何保荣等[5]提出了一种基于数据库环境下信息智能检索的方法,用来解决传统的检索方法融合率低,检索精度低等问题。该方法主要利用遗传学算法构建信息智能数据库,通过获取数据库内各因子的信息特征向量,组成检索的最优子集,然后通过计算机技术对各个最优子集进行去冗余处理,得到精准的检索信息。再应用检索理论,结合LDA模型构建信息智能检索模型,完成在数据库环境下信息的智能检索。实现结果表明,该信息智能检索方法,可以提高信息融合的准确率,具有更高的检索精度。

1 数字文献推广信息智能检索算法设计

1.1 提取数字文献推广信息关键特征

数字文献信息库内检索词的特征点分布较为集中时,更方便用户准确地获取数字文献推广信息中检索词的相关度[6],即:

根据语义相似度,对其进行权重分析[7],利用下式给出数字文献推广信息的权重值为

对数字文献推广信息数据库的查询结果表示为

结合李雅普诺夫定理[8],对数字文献推广信息的关键特征进行提取:

1.2 清洗数字文献数据库的推广信息

为了有效地提高信息检索的准确率和效率,需对数字文献数据库的推广信息进行清洗。为了提高数字文献数据库的清洗效率,将数字文献数据库的清洗步骤分为两部分,一是局部过滤与清洗,二是全局过滤与清洗[9]。利用滤波过滤器采集单个检索器数据,然后将采集数据按照时间分别排序,根据排序的结果及时对局部过期数据进行清除处理。对数字文献数据内的信息进行检索,判断现有采集数据是否存在冲突,最后对过滤器对全局信息进行过滤与清洗,去除冗余数据。

将采集的数据信息转换为二元一组的形式,转换方程式为

利用全局过滤器,对数字文献数据库的推广信息进行全局清洗去除冗余数据[12]。

根据式(11)计算出冲突检索词内的最大冲突隶属程度。然后依据时间顺序,对采集的检索数据进行排序,将产生冲突的检索词进行归一化处理[13]。删除列队中存在的冗余数据,如果仅仅存在较小的二元一组内,将该元组删除,得到的全局数字文献数据库推广信息的清理结果为

本次72例研究对象均为我院2016年11月-2017年10月接收的急性颅脑损伤患者,男性患者数量与女性患者数量比值是40:32,最大年龄值是69岁,最小年龄值是23岁,均龄值数是(36.02±9.15)岁,其中27例患者因为交通事故引发颅脑急性损伤;25例患者因为打击而引发颅脑急性损伤;20例患者因为高空坠落而引发颅脑急性损伤。入组标准:①经过诊断之后被明确诊断为急性脑出血患者;②本次研究所选人员均由其家属签署了知情协议书;排除标准:①重大心理以及精神疾病患者;②伴有心脏、肝、肾等严重器官疾病患者;③中途选择退出患者。

1.3 设计数字文献推广信息检索算法

在完成数字文献数据库的推广信息的清洗,对其原理进行设计,假设数字文献推广信息检索的定义为

2 实验分析

对于自由度为1的数字文献推广信息样本,当显著性水平为5%时,检索值为3.8,如果数字文献推广信息检索的统计量比3.8低,那么就认为数字文献推广信息序列可以通过检索。频数检索结果如图1所示。

从图1的结果可以看出,采用基于语义相似度的数字文献推广信息智能检索算法时,只有第62, 265, 289共3个序列号的检索未通过检索,其余297个均低于检索值,通过了检索。主要原因是PC机的计算精度对检索结果的影响,经计算,数字文献推广信息频数检索均值低于5%,说明基于语义相似度的数字文献推广信息智能检索算法可以通过频数检索。

序列检索结果如图2所示。从图2的结果可以看出,在数字文献推广信息序列中,存在极少部分的数字文献推广信息序列受到不可抗因素的影响,无法顺利通过序列检索,经过计算可得,采用基于语义相似度的数字文献推广信息智能检索算法时,数字文献推广信息检索均值低于5%,说明本文设计的数字文献推广信息智能检索算法可以安全通过序列检索。

图2 序列检索结果

图3 d为1时数字文献推广信息的自相关检索结果

图4 d为10时数字文献推广信息的自相关检索结果

从图3和图4的结果可以看出,采用基于语义相似度的数字文献推广信息智能检索算法时,数字文献推广信息的自相关检索值比较低,说明基于语义相似度的数字文献推广信息智能检索算法具有更加优越的检索性能。

3 结束语

本文提出了基于语义相似度的数字文献推广信息智能检索算法研究,根据语义相似度原理,提取出数字文献推广信息关键特征,通过清洗数字文献数据库的推广信息,设计了数字文献推广信息检索算法,实现了数字文献推广信息的检索。结果显示,本文设计的数字文献推广信息检索算法具有更高的检索效率和安全性。

[1] 郑伟,侯宏旭,武静. 贝叶斯网络在信息检索中的应用[J]. 情报科学,2018, 36(6): 136-141.

[2] 张路路,黄崑. 基于认知风格的数字图书馆用户信息检索行为研究[J]. 情报学报,2018, 37(11): 1164-1174.

[3] 何喜军. 基于本体和SAO结构的线上技术供需信息语义匹配研究[J]. 情报科学,2018, 36(11): 95-100.

[4] 袁敏,段景辉,黄梦醒. 基于云计算环境下的信息检索及智能融合的研究[J]. 现代电子技术,2018, 41(6): 162-164, 168.

[5] 何保荣. 大数据下监控网络混合入侵信息检索仿真[J]. 沈阳工业大学学报,2019, 41(6): 654-658.

[6] 颜端武,任婷,陶志恒. 基于双语词典和歧义消解的中英双语专利信息检索研究[J]. 情报理论与实践,2018, 41(2): 138-142, 154.

[7] 刘萍,叶方倩,杨志伟. 认知建构视角下交互式信息检索模型研究[J]. 图书情报知识,2020(2): 93-101, 122.

[8] 于晓明,史胜楠,甘克勤. 基于Solr的标准信息检索技术及其优化[J]. 科学技术与工程,2020, 20(4): 1504-1508.

[9] 谷钰,张丽杰,吕翘楚. 电子商务交易中多用户相似货源信息检索仿真[J]. 计算机仿真,2018, 35(10): 472-476.

[10] 葛奕飞,郑彦斌. 带有纠删或纠错性质的隐私保护信息检索方案[J]. 广西师范大学学报(自然科学版),2020, 38(3): 33-44.

[11] 屈娟娟. 大数据网络用户浏览隐式反馈信息检索仿真[J]. 计算机仿真,2019, 36(9): 430-433, 468.

[12] 肖艳梅. 互联网时代信息检索工作中大数据的运用[J]. 中国统计,2018(3): 34-36.

[13] 禹夏. 基于虚拟现实技术的档案馆信息检索可视化研究[J]. 山西档案,2018(3): 81-83.

[14] 段维军. 语音识别技术在多媒体信息检索中的应用仿真[J]. 计算机仿真,2019, 36(7): 331-334, 384.

[15] 史晓康. 新加坡国家档案馆的网络档案信息检索[J]. 山西档案,2019(4): 99-108.

Intelligent retrieval algorithm of digital literature promotion information based on semantic similarity

LIN Zong-ying,LIN Min-shan

(Institute of Intelligent Manufacturing, Quanzhou Vocational and Technical University, Fujian Quanzhou 362000, China)

Considering the problems of poor security and low efficiency of traditional information retrieval algorithms in retrieving digital literature promotion information, an intelligent retrieval algorithm of digital literature promotion information based on semantic similarity is proposed. Based on the information document of digital literature retrieval, the relevance of key words in digital literature promotion information is calculated. According to the semantic similarity, the weight value of digital literature promotion information is calculated. Using the query results of digital literature promotion information database and Lyapunov theorem, the key features of digital literature promotion information are extracted.The average retrieval probability of digital literature promotion information is calculated, the local promotion information of digital literature database is cleaned by filter, and the promotion information of digital literature database is cleaned by global filter. The semantic similarity between key words is calculated by defining the value of digital literature promotion information retrieval element, The retrieval of digital literature promotion information is realized. The experimental results show that the intelligent retrieval algorithm of digital literature promotion information based on semantic similarity can not only improve the retrieval efficiency of digital literature promotion information, but also has high security.

semantic similarity;digital literature;promotion information;intelligent retrieval;feature extraction;information cleaning

2021-07-20

福建省中青年教师教育科研项目(科技类)——高校文献检索系统的研究与建设(JAT201198)

林宗英(1985-),女,福建漳州人,讲师,硕士,主要从事计算机应用研究,pthouge@163.com。

TP391.3

A

1007-984X(2022)01-0033-06

猜你喜欢

信息检索检索语义
真实场景水下语义分割方法及数据集
CNKI检索模式结合关键词选取在检索中的应用探讨
瑞典专利数据库的检索技巧
2019年第4-6期便捷检索目录
英国知识产权局商标数据库信息检索
对大学案理研讨课学生信息检索意识若干问题的思考
中外档案网站信息检索功能比较研究
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
公共图书馆信息检索服务的实践探索——以上海浦东图书馆为例