APP下载

基于文本相似度和主题发现的弱信号识别方法

2024-09-14孙涛张秉坤成磊峰李强

电脑知识与技术 2024年23期

摘要:弱信号是未来重大事件的早期预警信号,识别、分析和追踪弱信号对风险预警具有重要意义。文章针对弱信号处理过程,提出一种定量弱信号识别方法。该方法通过文本的平均相似度计算弱信号强度,并确认弱信号阈值;根据主题发现的方式增强弱信号数据的信号强度,并关联其他数据。最后,文章基于环球网新闻数据验证了该方法的弱信号识别过程,实验证明该方法是一种能够识别出弱信号文本并增强弱信号强度。

关键词:风险预警;弱信号;文本相似度;主题词

中图分类号:TN957.52 文献标识码:A

文章编号:1009-3044(2024)23-0034-03

开放科学(资源服务)标识码(OSID)

0 引言

对将要出现的风险和威胁发出预警并对事物的未来发展作出预测是战略分析的重要目的。弱信号是一种具备前瞻性和预见性的碎片数据,被视为对未来具有重要影响力事件的早期迹象,往往能够作为战略预警能力的核心指标[1]。弱信号通常以碎片化的形式隐藏在海量信息背后,并夹杂着多种噪声[2]。从大量信息中识别和发现弱信号具有重大意义,从系统论的角度来看。一方面弱信号的识别和分析有利于发现破坏系统内稳态的威胁因素维持系统内在平衡另一方面对系统演化和创新的支持同样离不开弱信号研究,早于他人发现弱信号可形成一定程度的竞争优势也有助于预见新系统的出现[3]。本文针对非结构化文本,从文本语义和词语两个角度综合设计了一套自动识别弱信号数据的方式,辅助分析人员对弱信号开展识别和分析。

美国战略规划先驱Ansoff教授通过观察组织战略方向的长期趋势变化,于1975年提出了弱信号的概念,认为弱信号具有重大影响的、不确定的早期征兆,可能蕴含着机会,也可能是威胁,但其形式、过程、来源都不明确。自Ansoff教授之后, H. Lesca等学者对弱信号作出了深入研究,弱信号的相关概念也逐渐丰富,总体上目前弱信号的相关概念可以分为三种:认为弱信号既关联现象,也同结果相关;认为弱信号仅代表着正在变化的现象;认为弱信号只是一个预示着未来变化的征兆。但是对弱信号的认知也包括一些共同的看法,比如弱信号揭示的内容不确定性,弱信号数据的碎片性、弱信号解读的多视角性、弱信号本身具备前置期、可演化趋势和引导变化的特征。弱信号难以被分析人员察觉到通常由于以下4个原因:1)弱信号可被感知的信息绝对量较少。2)弱信号的有效部分难以进入分析人员的视野。3)弱信号通常夹杂着噪声和虚假信息。4)弱信号通常呈碎片状,无法完整收集[4]。由于外部环境的复杂多变,导致弱信号识别需要以长期性的方式综合考虑其有效性和意义,以便通过识别出的弱信号发现未来的发展趋势、机会和威胁[5]。

1 相关研究

从战略分析的角度来看,所有搜集到的信息最初只能假定为噪声而不是信号,只有被适当处理后的弱信号才能显现其价值。筛选可以起到减少背景噪声的作用,通过从噪声中抽取弱信号可以帮助弱信号的侦测,总体上,有两种思路: 一是减少噪声密度从而揭示出弱信号;二是放大弱信号,让其从相对恒定的噪声中凸显出来从统计的角度看,弱信号的“弱”意指其产生的概率低或频率低,但同时弱信号的信息含量也很低,所以经典统计方法会受到样本量的约束,可能无法做到合理地解释弱信号所代表的含义[6]。

目前弱信号的识别过程大多依赖人工输入或专家意见,自动识别弱信号手段仍处于起步阶段。Griol-Barres等利用新闻和社会数据监测弱信号,人工挑选并分析关键词,并使用自然语言处理方法提取准确结果[7]。但是人工挑选存在工作量大,主观易忽视等问题,不适用于大量数据的弱信号发现。J.Yoon提出一种给定关键字的情况下,基于文本内容挖掘的弱信号主题识别方法[8]。该方法基于专家确定的关键字发现数据主题,无法发现容易被主观忽视的弱信号。GUTSCHE提出一种运用动态主题建模和时间序列分析的方法自动检测弱信号,但是监测效果依赖于主题建模的效果,对模型的实时性要求很高。杨波等基于LDA和BERT模型自动识别文本弱信号,使用LDA发现文本主题,通过紧密中心度、主题权重和主题自相关性评价主题强弱性,并根据各个主题内数据的归一化频率和概率提取出弱信号,最后使用通过BERT模型在语义层面对弱信号增强。使用LDA发现文本主题是一种文本汇聚发现的方法,该方法会将部分文本排除在主题之外,会导致弱信号的丢失和遗漏,不适用于主题各异且存在交叉的文本数据[9]。

文本相似度算法主要包括基于字符串匹配的方法,基于统计学的方法和基于深度学习的方法。其过程主要是根据词向量算法将文本向量化,并通过余弦距离、欧氏距离等向量相似度算法计算两个文本相似度。文本相似度算法能够准确计算出两个文本之间的语义关联,通过文本之间的语义关联性,综合文本之间的词语共现统计特征,可以量化直观地识别出大量数据背后隐藏的弱信号。

综上所述,目前弱信号识别方法主要使用人工识别或主题自动发现的方式,人工识别存在工作量大,主观性强的缺点。主题自动发现对主题模型的实时性和数据贴合性要求很高,而且存在信号抽取不准导致弱信号丢失的情况,由于LDA模型属于无监督文本挖掘技术,分析人员也无法对这种丢失情况进行干预。本文提出一种基于文本相似度和主题频率统计的方法,能够从文本语义和主题特征两个角度对弱信号进行识别,并通过主题词关联增强语义信号,以获得更好的弱信号识别能力。

2 弱信号识别方法

2.1 方法概述

为增强弱信号自动发现过程的可控性和发现效果,本文使用较为可控的文本相似度算法和主题特征两个算法从文本语义层面和文本特征层面两个角度发现非结构化文本的弱信号信息。其中,文本相似度算法通过文本之间的相似度值建立各个文本在整体内容的相似度基准,得到每个文本的平均相似度,文本平均相似度越高,说明该文本的相似的报文越多,也就说明文本的信号强度越强。上述方法实现了根据平均相似度可以从语义层面表达文本的信号强度,再根据平均相似度的阈值调节可以筛除掉噪声和强信号,从而发现该批次数据的弱信号。基于发现的弱信号样本,提取其主题词,并通过主题词共现的方式获取其他相关数据,实现对弱信号的增幅效应,便于分析人员对弱信号数据开展分析。弱信号识别方法整体流程框架如图1所示。

文本经过预处理后形成文本库,计算每一篇报文的相似报文,并计算相似报文的相似程度,从而得到每篇报文的平均相似度和整体平均相似度。计算每个文本的主题词,并对主题频率进行统计,构建出主题频率空间。分析人员根据整体平均相似度设定弱信号阈值,并根据阈值范围发现对应的弱信号文本,再根据主题关联和频率,从不同维度发现其他关联的报文,从而增强弱信号强度,开展弱信号分析。

2.2 文本预处理

文本预处理使用BERT模型进行分词。在预处理过程中,文本标题往往能够说明整个文本数据的核心内容,因此在预处理阶段,首先对标题和正文进行拆分,便于后续更精准的关键词权重值计算。分词后根据停用词库删除无意义的词语,构建文本库。

2.3 文本平均相似度计算

文本平均相似度计算用于计算单个文本的平均相似度,并进一步计算整体平均相似度,从而获取整体文本信号基准,基于单个文本的平均相似度能够表征该文本在整个文本库中的信号强度,文本整体平均相似度能够表征文本库整体的数据紧密程度,从而可以辅助分析人员根据自身需求设定弱信号的阈值。

在海量文本数据场景下,直接计算文本之间的相似度会花费n2的算力,无法满足文本实时处置的要求。因此本文使用BM25算法快速召回一定数量的文本后,针对粗召回文本开展相似度计算更符合实际使用场景,BM25算法公式如下:

[Score(W,d)=inwi⋅R(qi,d)] (1)

其中:[wi]表示文本中的一个词项权重,[R(qi,d)]表示文本的一个词项与文档相关性得分。

针对粗召回的文本,使用word2vec生成词向量,并计算文本之间的余弦相似度,计算公式如下:

[sim(a,b)=1nAiBi1nA2i1nB2i] (2)

计算出召回数据的相似度后,根据文本数据语义关联密度和分析需求,调整相似度阈值,形成相似文本集合。

2.4 主题词计算和统计

主题词计算通过词语权重计算出能够表征文本内容的关键词,再基于关键词统计从词语粒度计算文本特征的信号强度,综合文本语义弱信号,开展弱信号分析。文本关键词使用jieba库的逆词频算法TF-IDF,计算文档关键词和权重,并根据当前词项是否出自标题增加一个权重调整项,使词项更能够代表文本内容。计算公式如下:

[Pwi=tf(wi)×log(Ndf(wi))×wp] (3)

其中,[tf(wi)]表示当前词项[wi]在文本i中出现的频率,N表示文本集合中所有文本的总数, [df(wi)]表示文本库中包含当前词项[wi]的文本数,[wp]根据词项是否出现在标题配置的词项权重。计算出逆词频权重后,选择词权重前n个词作为关键词,根据关键词和文本的关系,构建共词网络。

2.4 弱信号发现

基于计算得到的整体平均相似度,作为弱信号基准值。根据帕累托原则,弱信号形成的信息不超过20%,且人类专家将噪声的阈值范围定义为0%~2%。假定整体平均相似度为Q,弱信号范围可以在4%Q~40%Q,文本信号分布,如图2所示。

根据弱信号阈值,获取平均相似度在阈值内的文本数据,并根据文本的主题出现次数和共现情况对弱信号开展分析。其中主题出现次数能够表示该主题自身的信号强度,主题共现情况能够基于主题关联相关文本,从而增强弱信号文本,辅助分析人员开展弱信号分析。

3 实验结果及分析

为了验证文本弱信号识别的效果,本文利用环球网2020年新闻数据集进行实验。该数据集包括1170篇新闻数据。本文对数据集进行了内容清洗,去除了作者、发文单位等与内容无关的内容,并将清洗后的内容分为标题和正文,形成了文本库。按照本文设计的方法,分别对文本库进行平均相似度计算和主题词计算,以便发现数据集中存在的弱信号数据。

通过文本平均相似度计算结果,文本整体平均相似度为0.3,而弱信号阈值为0.012~0.12,根据弱信号阈值筛选各个文本的平均相似度,获取到23篇弱信号文本,根据对文本特征分析,可以发现该批次文本存在气候变化、非洲、欧洲贸易等弱信号数据,对其关联文本分析,发现存在全球气候变化,由疫情引发的非洲食物短缺,以及英国脱欧后欧洲贸易影响等问题。

4 结束语

弱信号识别是基于弱信号进行战略预警的重要组成部分,能否完整地识别和发现弱信号决定着战略预警是否有效。本文基于文本相似度和主题词抽取设计一种弱信号发现方法。该方法能够针对批量数据开展定量的弱信号发现和分析,提高了海量文本数据的弱信号发现效率;该方法通过可量化的弱信号识别分析,提高文本分析过程的准确性;该方法所有过程均使用统计学算法,人可以直观感受到弱信号文本在内容上的异同,是一种可信的文本分析方法。在实验过程中,发现关键词关联文本的分析方法可以提供一种更加灵活的分析方法,该方法能够提高人为识别文本弱信号的效率。所以在未来的工作中,将考虑如何开展弱信号文本的特征分析,进一步提高弱信号分析的能力。

参考文献:

[1] 司谨源.基于地平线扫描的公安情报预警模式构建[J].情报杂志,2020,39(1):56-62.

[2] 董尹,刘千里,宋继伟,等.弱信号研究综述:概念、方法和工具[J].情报理论与实践,2018,41(10):147-154.

[3] 董尹,李明阳,胡雅萍,等.情报业务语境下的弱信号理论解析[J].情报杂志,2023,42(5):137-144,41.

[4] 单彬.认知视角下的弱信号分析及实证研究[D].北京:中国人民解放军军事医学科学院,2014.

[5] 马铭,毛进,李纲.从弱信号到机会:关于弱信号的相关研究进展[J].图书情报工作,2023,67(19):121-132.

[6] MÜHLROTH C,GROTTKE M.A systematic literature review of mining weak signals and trends for corporate foresight[J].Journal of Business Economics,2018,88(5):643-687.

[7] GRIOL-BARRES I,MILLA S,CEBRIÁN A,et al.Detecting weak signals of the future:a system implementation based on text mining and natural language processing[J].Sustainability,2020,12(19):7848.

[8] YOON J.Detecting weak signals for long-term business opportunities using text mining of Web news[J].Expert Systems with Applications,2012,39(16):12543-12550.

[9] 杨波,邵婉婷.基于LDA-BERT融合模型的弱信号识别研究[J].图书情报工作,2021,65(16):98-107.

【通联编辑:朱宝贵】