APP下载

基于自然语言处理的社区人口数据公共信息智能检索方法

2024-09-24孔越峰

物联网技术 2024年5期
关键词:自然语言处理

摘 要:现有的数据资源智能检索方法的检索排序质量较低,检索结果文档排名顺序和文档之间的相关性较低,为此提出基于自然语言处理的社区人口数据公共信息智能检索方法。对物联网检索问题进行分析,引入自然语言处理方式对社区人口数据公共信息进行映射处理,以信息在公共语义空间环境的分布位置为基础提取特征,将与社区人口数据公共信息检索请求特征拟合度最高的信息作为检索输出结果,实现社区人口数据公共信息智能检索。在测试结果中,所设计检索方法的NDCG值未受到并行检索请求数量的影响,NDCG值处于较高水平,表示检索结果的排序质量较高,文档排名顺序和文档之间的相关性较高,说明设计方法能够有效地对检索结果进行排序,具有较高的性能。

关键词:自然语言处理;社区人口数据公共信息;智能检索;映射处理;公共语义空间;特征拟合度

中图分类号:TP39;U464 文献标识码:A 文章编号:2095-1302(2024)05-0-03

0 引 言

随着大数据时代的到来,数字经济得到快速发展,其不仅在极大程度上颠覆了人类原有的生产方式和生活方式,降低了相关活动开展的难度[1],同时也使得信息呈现大规模“井喷”。在检索目标信息时,无论是以搜索引擎为基础的网页信息搜索过程[2],还是以个人计算机系统为基础的文件信息查找过程,如何快速筛选出与用户信息需求匹配的内容和服务成为了备受关注的业务执行效果优化方向之一[3]。在此基础上,对信息检索的主要任务进行分析可以发现,其执行的核心是以用户查询文本对象为基础的,对应的搜索范围大多是大规模非结构化的数据集,通过定位满足用户信息需求的文档信息,实现对最符合要求信息的检索[4]。一般情况下,以处理数据规模为基础对信息检索进行分类,可以划分为3个主要级别,分别为大规模信息检索、中等规模信息检索以及小规模信息检索[5]。其中,大规模信息检索大多是以Web搜索的形式存在的;中等规模信息检索大多是由数台服务器提供检索服务;小规模信息检索的执行载体大多为个人计算机。

国内有相关领域的研究专家就信息的智能检索展开了研究。潘敏等人[6]提出了基于ConceptNet语义的伪相关反馈信息检索方法。但是检索结果的优劣排序与实际检索需求还存在一定的误差,检索排序质量不能满足实际需求。傅晓菲等人[7]基于数据中台,针对多级调度管理业务数据资源检索方法展开了研究。但是检索结果文档排名顺序与文档之间的相关性较低,影响最终检索结果的有效性。

为解决上述方法存在的不足,本文提出基于自然语言处理的社区人口数据公共信息智能检索方法;并通过设置对比测试环境,分析验证了设计方法的实际应用效果和性能。

1 社区人口数据公共信息智能检索方法设计

1.1 物联网检索问题分析

在物联网体系内,考虑社区人口数据公共信息特征以及用户对信息完整性、独立性的需求,需要在社区人口数据公共信息和用户应用之间构建一个统一的信息处理模型,向上接收用户所需的检索请求,向下协调物联网各个传感器设备进行社区人口数据公共信息源的采集,进行有效的信息交流。物联网信息检索体系中,检索结果与用户需求的相关程度是信息检索系统的核心标准,标志着反馈给用户的检索结果是否满足用户需求。物联网检索体系的主要目标是尽可能全面地检索出海量社区人口数据公共信息与用户检索关键字之间相关的所有信息,能够为数据处理和分析提供有力的支持。

1.2 社区人口数据公共信息自然语言映射处理

考虑到查询请求、社区人口数据公共信息文档和社区人口数据公共信息分类文本在存在形式上表现出的不同,首先对物联网检索问题进行分析,即因社区人口数据往往来自不同的数据源,包括统计数据、调查数据、公共部门数据等[8],导致信息格式、标准、精度等可能存在差异,需采用自然语言处理方法进行映射处理,再实施智能检索。在保证社区人口数据公共信息独立性基础上,需要引入自然语言处理的概念[9],实现对信息属性特征的获取及信息检索。

对自然语言检索任务进行分析可以发现,其影响检索性能的最主要原因是查询请求语言、社区人口数据公共信息文档和社区人口数据公共信息分类文本的存在形式不同。为此,本文首先通过预训练的方式,对输入的查询请求、检索请求和社区人口数据公共信息文本分类文档中存在的自然语言进行映射处理,使对应的自然语言向量处于同一个公共语义空间环境中[10]。其中,自然语言向量具体的映射方式为:

(1)

式中:vim为信息查询请求中自然语言向量在公共语义空间环境的映射结果;vjn为公共信息中自然语言向量在公共语义空间环境中的映射结果;vkc为公共信息文本分类文档中自然语言向量在公共语义空间环境中的映射结果;wordvecm(wmi)为查询请求语言词向量子;wim为公共信息查询请求中的第i个词汇;wordvecn(wnj)表示社区人口数据公共信息语言词向量子;wjn表示社区人口数据公共信息中的第j个词汇;wordvecc(wck)表示社区人口数据公共信息分类文本使用的跨语言词向量子;wck表示社区人口数据公共信息文本分类文档中的第k个词汇。

1.3 社区人口数据公共信息智能检索

按照上述方式,实现对社区人口数据公共信息检索全过程中自然语言的映射处理,并以此为基础,对输入的查询请求、检索请求和社区人口数据公共信息文本分类文档特征进行提取[11]。在具体的实现阶段,以信息在公共语义空间环境的分布位置为基础,具体的提取方式为:

(2)

式中:z表示查询请求、检索请求和社区人口数据公共信息文本分类文档特征提取结果;σ表示物联网Bi-GRU单元的文本特征提取器;λ表示物联网 Bi-GRU单元的编码器;β表示物联网Bi-GRU单元的学习模型;γ表示物联网Bi-GRU单元的软共享参数。根据提取结果,将拟合度最高的数据信息作为检索的输出,其中对应的输出结果为:

(3)

式中,f(x)表示匹配vim社区人口数据公共信息查询请求的社区人口数据公共信息输出结果。

按照上述方式实现对社区人口数据公共信息的有效检索。

2 应用测试

2.1 测试环境

在对本文设计的基于自然语言处理的社区人口数据公共信息智能检索方法实际应用效果进行分析时,以A地区的实际环境为基础,开展了对比测试。其中,参与测试的对照组分别为文献[6]提出的以ConceptNet语义为基础的信息检索方法,以及文献[7]提出的以数据中台为基础的资源检索方法。

对测试环境的基本情况进行分析,其中A地区为所在城市的经济中心区域,具有交通、科技发展水平较高的特点,具有明显的金融中心属性。对测试地区的总面积情况进行分析,约为64.20 km2,其中共包含11个小区。对测试区域的人口占比分布情况进行统计,以第七次人口普查结果为基础,3岁及以下人口占比为15.2%,3~18岁人口占比为27.2%,18~40岁人口占比为42.6%,65岁及以上人口占比为15.0%。以上述数据信息为基础,分别采用三种检索方法开展对比测试。在对具体的检索效果进行分析时,本文将归一化折损累计增益(Normalized Discounted Cumulative Gain, NDCG)作为具体的评价指标。NDCG值的范围在0~1之间,越接近1代表排序质量越好。具体的计算方式可以表示为:

(4)

(5)

式中:DCG@κ表示文档数排名在前κ时的截断累积增益;re表示排名在第e位的文档的相关性得分,re={r1, r2, ..., re};I×DCG@κ表示理想情况下的累积增益。

以上述研究为基础,对三种不同信息检索方法的性能做出客观评价。

2.2 测试结果与分析

结合上述测试环境,本文设置了不同的并行检索请求数量,对应的检索结果如图1所示。

结合图1所示的测试结果,对三种不同信息检索方法的性能进行分析可以发现,在ConceptNet语义信息检索方法下,对应的NDCG值随着并行检索请求数量的增加呈现出逐渐下降的发展趋势,其中,当并行检索请求数量由5个增加至35个时,对应的NDCG值由0.542 2下降至0.401 7,降幅达到了0.140 5。在数据中台信息检索方法下,NDCG值受并行检索请求数量的影响并不明显,但是NDCG值的整体水平始终处于相对偏低的状态,最大值仅为0.462 4。相比之下,在本文设计的信息检索方法的测试结果中,不仅NDCG值未受到并行检索请求数量的影响,而且具体的NDCG值始终稳定在较高水平,其中最大值达到了0.856 6,比ConceptNet语义信息检索方法高0.314 4,比数据中台信息检索方法高0.394 2;最小值也达到了0.852 1(并行检索请求数量为35个时),比ConceptNet语义信息检索方法高0.450 4,比数据中台信息检索方法高0.419 8。

3 结 语

为了实现对目标信息的快速获取,有效的信息检索方法成为了研究热点之一。本文提出基于自然语言处理的社区人口数据公共信息智能检索方法,通过对社区人口数据公共信息自然语言进行映射处理,实现了社区人口数据公共信息智能检索。希望借助本文关于公共信息智能检索方法的研究,为实际的检索工作提供有价值的参考,最大限度地提高检索的性能。

参考文献

[1]李辉,黄祖源,田园,等.基于隐私信息检索的大规模用电增信查询方法[J/OL].山西大学学报(自然科学版):1-11[2024-04-08].https://doi.org/10.13451/j.sxu.ns.2023117.

[2]陈佳,张鸿.基于特征增强和语义相关性匹配的图像文本检索方法[J].计算机应用,2024,44(1):16-23.

[3]李叶,毛伊敏,陈志刚.基于Winograd卷积的并行深度卷积神经网络优化算法[J].信息与控制,2023,52(4):466-482.

[4]岳雷,崔展齐,陈翔,等.基于历史缺陷信息检索的语句级软件缺陷定位方法[J/OL].软件学报:1-20[2024-04-08]. https://doi.org/10.13328/j.cnki.jos.006980.

[5]孙志强,郑杭彬,吕超凡,等.基于神经渲染的数字孪生资产快速场景几何建模与检索方法[J/OL].计算机集成制造系统:1-21[2024-04-08]. http://kns.cnki.net/kcms/detail/11.5946.TP.20230818.1726.010.html.

[6]潘敏,刘宇,裴全力,等. 基于ConceptNet语义的伪相关反馈信息检索方法[J]. 湖北师范大学学报(自然科学版),2023,43(2):28-37.

[7]傅晓菲,陈涵,陈磊,等. 基于数据中台的面向多级调度管理业务数据资源检索方法[J]. 现代计算机,2023,29(9):98-102.

[8]刘思源,毛存礼,张勇丙. 基于领域知识图谱和对比学习的汉越跨境民族文本检索方法[J]. 南京大学学报(自然科学),2023,59(4):610-619.

[9]王湘玲,沙璐,杨雯婷. 国际译者信息检索行为研究现状和趋势分析(2000-2022)—基于R语言Bibliometrix的可视化分析[J]. 湖南大学学报(社会科学版),2023,37(4):98-105.

[10]侯慧太,蓝朝桢,徐青.基于卫星影像全局和局部深度学习特征检索的无人机绝对定位方法[J].地球信息科学学报,2023,25(5):1064-1074.

[11]胡侃,王明莉,魏晓倩. 融合桥梁建设知识图谱" 建立多元数据检索方法—实现桥梁工程内业资料数字化创新应用[J]. 四川档案,2023,41(2):34-35.

作者简介:孔越峰(1982—),男,广东汕头人,硕士研究生,信息技术工程师,研究方向为人工智能、大数据及其智能化应用。

收稿日期:2023-10-31 修回日期:2023-11-27

猜你喜欢

自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
国外基于知识库的问答系统相关研究进展及其启示
基于依存句法的实体关系抽取
基于组合分类算法的源代码注释质量评估方法
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析
基于.NET的维哈柯多语种网上数据采集系统的设计与实现