APP下载

基于文本相似度和共词网络的情报差异性分析

2024-09-15孙涛

电脑知识与技术 2024年24期

摘要:交叉印证和差异性分析是情报分析的重要手段,将相似情报数据归集后开展差异性分析能够辅助情报分析人员快速了解大量情报的数据分布、分析重点和分析路径,提高情报分析的效率和质量。文章针对情报关联分析过程,提出一种情报差异性分析方法。该方法通过文本相似度构建批量情报数据的关联关系;通过逆词频抽取情报的关键词,构建共词网络;根据关键词的语义差异性定量计算情报的差异性。最后,文章基于环球网时政新闻数据验证了该方法的分析流程,实验证明该方法是一种准确、高效、可信的情报分析方法。

关键词:情报分析;差异分析;文本相似度;共词网络

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2024)24-0054-03

开放科学(资源服务)标识码(OSID)

0 引言

情报分析是通过对全源数据进行综合、评估、分析和解读,将处理过的信息转化为情报以满足已知或预期用户需求的过程。为了确保情报分析报告的质量,在情报分析过程中要尽可能全面地掌握数据,并通过数据关联和融合,在不同数据源中寻找同一事实或规律,为分析结论的交叉印证提供数据依据[1]。情报关联分析是情报分析流程中不可或缺的环节,它是指为了相互作用或相互验证的目的将分散的相关信息关联起来处理的过程[2]。关联分析能够综合相关主题的多篇情报,实现情报的去伪存真、去粗取精、要素互补,提高情报分析的准确性和全面性,其意义在于为情报分析提供推理依据、交叉验证依据和减少结论片面性的依据。

随着人工智能技术发展,以自然语言处理为代表的文本处理技术为情报的关联分析提供了丰富的工具。如李勇男针对反恐情报的特征开展研究,用于发现涉恐数据中不同概念分层的关联规律[3]。何超等针对商务情报的语义特征设计了一种特征网络图,用于分析语义层面的情报关联[4]。席笑文等针对科技情报数据的专利权人、专利和技术特征使用LDA技术构建了三层主题的概率向量网络,用于监测专利技术的相似性[5]。葛文翰等针对网络威胁的技术和战术数据训练了分类模型,提高了网络技战术的分类效果[6]。

战略情报是有关国家安全、国家利益和军事斗争全局所需的情报。包括敌方及有关各方的军事思想、战略方针、战争计划、作战原则,武装力量体制、军事实力、战争潜力,战略目标、军事部署、战备措施 [7]。目前关于自然语言技术应用于情报分析的研究主要是针对战场情报、反恐情报、网络安全情报等某一领域情报数据,建立本体和特征级关联关系,以实现目标判别,行为分析、知识构建等能力。无法满足战略情报这类体系化、全领域、高站位的情报分析。

1 相关研究

文本相似度算法主要包括基于字符串匹配的方法,基于统计学的方法和基于深度学习的方法。其过程主要是根据词向量算法将文本向量化,并通过余弦距离、欧氏距离等向量相似度算法计算两个文本相似度。文本相似度的核心是文本向量化表示的过程,目前最具代表性的算法是Mikolov等人提出的基于word embedding(即词嵌入方法)的word2vec模型和基于变换器的双向编码器表示网络(Bidirectional Encoder Representationsfrom Transformers,BERT)的预训练模型。相比于其他文本表示方法,word2vec不仅可以从根本上解决了文本维度过高问题,还能够保留了文本上下文中词与词间的相关性,有效提升算法在处理文本分类任务的准确性[8-9]。Bert预训练模型虽然在实体识别和关键词抽取方面都具备良好的表现,但BERT预训练出的词向量存在各向异性和低频词汇稀疏的问题,在语义文本相似度的表现并不是很好。

共词分析(Co-word Analysis)方法是内容分析方法之一,也是目前情报学领域常用的研究方法之一。其基本原理是通过统计文本中词语的共现情况,来反映文本之间的关联强度,进而确定这些文本的研究热点、组成与范式,横向和纵向分析学科领域的发展过程和结构演化[10-11]。共词分析方法具有操作灵活性以及分析结果的直观性等特点,已成为科技情报领域识别学科发展的重要工具。

关于相似关联分析的技术还包括LDA、情感分析和基于深度学习的文本分类,但是这些技术都存在分类依据不可见,各类主题表征结果不强,需要领域数据训练的问题,不符合战略情报的数据跨领域和要求结果可信度高的要求。针对战略情报综合性强、领域跨度大、涉及特征多的特点。本文基于文本相似度实现对跨领域数据的主题聚合,并基于共词网络计算了相似数据的语义差异度,实现描述同一主题的不同文本在阐述角度、态度情感等方面的差异性分析,对战略情报的关联分析提供一种思路,并使用新闻数据验证了该分析方法的效果。

2 情报差异性分析方法

情报差异性分析方法包括文本预处理、文本相似度计算、共词网络构建和文本差异度计算4个模块,文本数据经过预处理模块的拆分和分词后生成具备标题、正文和分词结果的文本库。分别对文本库结果进行相似度计算和共词网络构建后形成相似文本集合和共词网络。针对文本集合计算集合内文本之间的差异度,定量分析相似情报之间的差异性,为情报人员提供某个主题下相似情况的差异比较,能够补充同一情况的事实维度和分析观点。差异性分析方法流程如图1所示。

2.1文本预处理

文本预处理使用BERT模型进行分词。在预处理过程中,情报标题往往能够说明整个情报数据的核心内容,因此在预处理阶段,首先对标题和正文进行拆分,便于后续更精准的关键词权重值计算。分词后根据停用词库删除无意义的词语,构建文本库。

2.2文本相似度计算

文本相似度计算用于生成文本相似集合,情报分析人员能够通过一篇数据获取关联的其他数据,开展后续的差异分析。在海量文本数据场景下,直接计算文本之间的相似度会花费n2的算力,无法满足情报实时处置的要求。因此本文使用BM25算法快速召回一定数量的文本后,针对粗召回文本开展相似度计算更符合实际使用场景,BM25算法公式如下:

[Score(W,d)=inwi⋅R(qi,d)] (1)

式中,[wi]表示文本中的一个词项权重,[R(qi,d)]表示文本的一个词项与文档相关性得分。

针对粗召回的文本,使用word2vec生成词向量,并计算文本之间的余弦相似度,计算公式如下:

[sim(a,b)=1nAiBi1nA2i1nB2i] (2)

计算出召回数据的相似度后,根据文本数据语义关联密度和分析需求,调整相似度阈值,形成相似文本集合。

2.3 共词网络构建

共词网络的构建主要是使用文本中抽取的关键词建立词语和文本的关系,形成关键词和文本的共现网络,后续针对该网络开展统计和分析。选择关键词作为共词网络的词源,可以从更宽泛的维度分析情报之间的差异,符合战略情报综合性强、领域跨度大的特点。文本关键词使用jieba库的逆词频算法TF-IDF,计算文档关键词和权重,并根据当前词项是否出自标题增加一个权重调整项,使词项更能够代表文本内容。计算公式如下:

[Pwi=tf(wi)×log(Ndf(wi))×wp] (3)

式中,[tf(wi)]表示当前词项<E:\2022知网文件\24期\2xs202424\Image\image9.pdf>在文本i中出现的频率,N表示文本集合中所有文本的总数, [df(wi)]表示文本库中包含当前词项[wi]的文本数,[wp]根据词项是否出现在标题配置的词项权重。计算出逆词频权重后,选择词权重前n个词作为关键词,根据关键词和文本的关系,构建共词网络。

2.4 文本差异度计算

根据选择的相似文本集合,获取集合内两篇文本的关键词,根据word2vec算法计算词语之间的相似度,选择相似度最高的词语作为当前词语的相似度。综合词语相似度和词频权重作为当前词语的差异度,对两个文本所有词差异度求和后,得到文本之间的差异度。计算公式如下:

[difij=1nPa1nPa·max1<b<nsim(wa,wb)] (4)

式中,[sim(wa,wb)]表示i文本中词项a和j文本中词项b的相似度,[Pa]表示词项a在i文本中的词频权重。

3 实验结果及分析

3.1 数据处理

为了验证情报差异性分析的效果,本文利用环球网2020年时事新闻数据集进行实验。该数据集包括1 170篇新闻数据,能够较好地仿真战略情报数据。本文对数据集进行了内容清洗,去除了作者、发文单位等与内容无关的内容,并将清洗后的内容分为标题和正文,形成了文本库。按照本文设计的方法,分别对文本库进行相似关联计算和关键词计算,形成文本相似关系网络。

3.2 实验结果与分析

为了更好地展示数据相似关系,本文设计了一种文本关联展示形式,能够很好地展示文本的汇聚情况,发现各类文本簇。该展示方式将文本作为节点,相似关系作为连接节点的线,展示了文本之间相似关联关系,可以在三维空间根据数据分布情况和研究粒度调整相似度形成不同的分布结构。本文选择相似度大于60%的数据关联关系,其相似关联分布结果如图2所示。

可以看到大部分节点作为散点分布在外围,关联性较强的节点汇聚成多个簇聚集在一起,同时各个簇之间也通过节点的相似性产生关联,情报分析人员能够直观地看到数据的关联关系,并基于文本差异度得到数据结果。

选择某个主题数据内部开展差异度计算,能够得到数据簇内数据在共词网络的差异值,从而发现文本内容的差异情况。

综合以上实验结果可以发现,基于文本相似度能够清晰地分析出情报数据集内部的关联关系,辅助情报分析人员快速发现关注重点。借助共词网络,可以量化的分析出文本之间的差异值,并通过关键词显示出各个文本的差异特点,为分析人员深入全面了解主题内容提供关键参考。

4 结束语

情报关联与差异性分析是情报研判的重要手段。本文结合文本相似度和共词网络提出一种战略情报差异性分析方法,该方法使用文本相似关系发现情报聚集情况,并能够通过关键词语义关联定量计算出文本之间的差异度。该方法能够针对批量数据开展关联发现和差异分析,提高了海量文本数据的分析效率;该方法通过可量化的数据关联性计算和词语粒度的差异性计算,提高了情报分析过程的准确性;该方法相比于深度学习模型和大模型处理过程交互性更高,人可以直观感受到不同相似度和差异度在内容上的异同,并基于数据情况调整参数,是一种可信的情报分析方法。在实验过程中,发现关键词关联文本的分析方法可以提供一种更加灵活的分析方法,该方法能够提高人为阅读辨别两份报文差异的效率和准确性。所以在未来的工作中,将考虑如何开展文本内关键词、实体、句段等细粒度要素之间的关联分析,进一步提高情报分析人员的工作效率和质量。

参考文献:

[1] 高金虎.情报分析方法论的演变:基于国家安全情报分析的视角[J].科技情报研究,2020,2(1):12-29.

[2] 杨建林,李品.基于情报过程视角辨析情报分析与数据分析的关系[J].情报理论与实践,2019,42(3):1-6.

[3] 李勇男.基于多层次关联规则挖掘的反恐情报跨层特征关联分析[J].情报科学,2021,39(11):127-132.

[4] 何超,张玉峰.基于语义关联分析的商务情报分析算法研究[J].情报杂志,2013,32(4):134-137.

[5] 席笑文,郭颖,宋欣娜,等.基于word2vec与LDA主题模型的技术相似性可视化研究[J].情报学报,2021,40(9):974-983.

[6] 葛文翰,王俊峰,唐宾徽,等.基于关联增强的网络威胁情报技战术分类[J].四川大学学报(自然科学版),2022,59(2):100-108.

[7] 马晓娟,陈烨,闻杰,等.战略情报预测模型的作用机理与价值述评[J].情报杂志,2020,39(8):6-15.

[8] 黄文彬,车尚锟.计算文本相似度的方法体系与应用分析[J].情报理论与实践,2019,42(11):128-134.

[9] 于润羽,李雅文,李昂.融合领域特征的科技学术会议语义相似性计算方法[J].智能系统学报,2022,17(4):737-743.

[10] 刘自强,岳丽欣,许海云,等.时序共词网络构建及其动态可视化研究[J].情报学报,2020,39(2):186-198.

[11] 李纲,巴志超.共词分析过程中的若干问题研究[J].中国图书馆学报,2017,43(4):93-113.

【通联编辑:朱宝贵】