APP下载

动态性数据链路预测情报侦查方法研究

2021-02-05薛亚龙刘如意

山西警察学院学报 2021年1期
关键词:动态性数据链侦查人员

□薛亚龙,刘如意

(宁夏警官职业学院,银川 750021)

虚拟空间网络科学技术的高速发展,促使动态性数据链路预测成为网络科学学科内的一个重要研究范畴,且不断地被应用于社会生产、生活的各个领域。网络科学中动态性数据链路预测的本质,是将动态性数据源中各个数据节点采取相互融合等作用形成数据节点的数据连边,从而能够挖掘与获得该动态性数据源中具有关联性的衔接数据。显然,利用动态性数据链路预测的属性能够让人们及时发现和获取在该动态性数据源中具有拓扑结构和拓扑特征的静态或动态数据节点,进而有利于人们能够对该动态性数据源的数据化生存规律及变化发展态势展开评估和预测。[1]同时,虚拟空间网络科学技术在给社会发展带来优质惠利的同时,还给犯罪情势的数据化生存态势提供了必要的“土壤”条件,造成在传统的动态性数据情报侦查应用过程中出现数据节点指标差异性大、数据情报衔接缺失、预测算法准确度低等突出问题,导致侦查人员对其研判与应用的结果往往出现侦查偏差或侦查失真,甚至陷入侦查错误和侦查僵局。基于此,引入动态性数据链路预测情报侦查方法研究的范式,将动态性数据链路预测与情报侦查互相融合共同发展,这不仅是网络科学范畴中动态性数据链路预测产生与发展的应然趋势,而且还是数据驱动创新时代现代情报侦查方法变革和创新的实然需求。

一、动态性数据链路预测情报侦查的内涵与属性

在虚拟空间网络的研究范畴中,动态性数据的结构属性与发展模式越来越受到人们的重视和研究。链路预测通过高度抽象的拓扑结构再现虚拟网络空间中各种复杂海量的相关性数理关系,以数据节点与数据连边结构属性对各动态性数据展开结构化的数据建模,从而对其进行深入全面的挖掘与预测。[2]链路预测作为虚拟空间网络中对动态性数据进行挖掘与预测的关键性算法,通过对其结构属性中的数据集合、数据节点、数据连边和指向以及数据权重系数等采取时间序列性的演化运算,然后寻找和获取具有关联性质的特殊数据节点和数据连边,进而实现对动态性数据产生和发展的生存规律态势给予挖掘与分析。显然,将动态性数据链路预测引入现代情报侦查工作之中,不仅是动态性数据链路预测自身的运算价值优势和传统情报侦查模式转型的必然性所决定,而且还是预防和打击犯罪行为呈现数据化生存情势发展的应对措施实然需求。因此,在数据驱动创新发展虚拟空间网络的新时代,应该赋予动态性数据链路预测情报侦查新的内涵和属性。

(一)动态性数据链路预测情报侦查的内涵

早期进行动态性数据链路预测的运算方法主要包括马尔科夫链和机器学习,即先研究动态性数据的数据路径与数据节点,然后拓展到对其数据之间的结构特征属性研究,进而通过动态性数据模型构建来实现其链路预测的应用价值和目的。因此,动态性数据链路预测就成为在虚拟空间网络中的一个最为重要的主流研究算法。在动态性数据链路预测的运算过程中,核心规则就是通过归纳分析数据节点之间的相似度从而获取其具备链路衔接的概率加权系数。显而易见。动态性数据链路预测的本质就是从动态性数据链路的微观层面挖掘与分析其数据集合、数据节点等结构形态所形成的原因和相互关系,主要的任务就是解决动态性数据中缺失数据集合和数据节点的预测与还原问题。[3]所谓还原是指在动态性数据中确实存在但还没有被发现和获取的数据链路,这种动态性数据的链路又被称为未知链路;而所谓预测是指在动态性数据中现在不存在但在未来却可能被发现所存在的数据链路,此种动态性数据的预测亦被称为未来链路。显然,动态性数据链路预测的核心技术即在预设搜集和构建的动态性数据源仓库中,准确挖掘与预测其包含的数据集合和数据节点在该动态性数据源中的链路衔接概率和差错率。一方面,该技术为提高对海量复杂动态性数据源的系统级链路衔接、自动化链路预测以及智能链路决策等提供运算的高性能指标体系;另一方面,还可以帮助实现对上述运算操作的简单化技术处理,从而提升动态性数据源的链路预测衔接概率和降低其运算的差错率。[4]诚然,结合动态性数据链路预测的运算属性与情报侦查的特殊应用价值和实践导向需求,我们认为,动态性数据链路预测情报侦查的内涵为:侦查人员采取GNRA算法、EESM算法、RBIR算法等动态性数据链路预测算法,通过对已知各数据集合、数据节点、数据路径等动态性数据源的运算与挖掘,帮助在虚拟数据化犯罪情势中挖掘与分析不相邻两个数据节点等之间产生数据连边的概率性和差错率,从而实现动态性数据链路预测引导和指导情报侦查的一种新型情报侦查方法。

依据动态性数据链路预测情报侦查中各数据集合、数据节点以及数据路径等运算的相似衔接加权系数不同,即如果上述两两之间的相似衔接加权系数越来越相近,那么其被链路预测衔接的概率性也就越大,可将动态性数据链路预测情报侦查分为三个方面类型,即全局动态性数据链路预测情报侦查、局部动态性数据链路预测情报侦查以及准局部动态性数据链路预测情报侦查。各类型动态性数据链路预测情报侦查的区别如下:全局动态性数据链路预测情报侦查主要考虑了全部动态性数据源中各个数据集合、数据节点等整体结构特性和链路预测算法的精确性,其显著的优点是能够挖掘与获得比较精确性的动态性数据链路预测情报侦查效果,然突出的缺点为其链路预测算法的数据收敛速度较慢,造成难以对各种数量特别大的动态性数据源开展链路预测的情报侦查应用。局部动态性数据链路预测情报侦查仅局限于对动态性数据源中各个数据节点的挖掘与分析,具体包括AA算法、CN算法以及PA算法等。其对数据收敛速度的要求不高,链路预测情报侦查的效果主要取决于涉案动态性数据源的数量范围。而准局部动态性数据链路预测情报侦查则无需过多考虑和关注全部动态性数据源中数据集合、数据节点以及数据路径等数据拓扑结构属性,而主要考虑的是比局部动态性数据链路预测情报侦查所使用的更多评价指标体系和系数,主要的算法包括LP算法、SRW算法以及LRW算法等。因此,侦查人员在动态性数据链路预测情报侦查应用的过程中应该根据各动态性数据源的不同内涵属性范围和涉案虚拟数据化犯罪情势的发展变化趋势,选择和采取不同类型的动态性数据链路预测情报侦查方法,从而促使其能够作出和制定及时准确的侦查预测与侦查对策。

(二)动态性数据链路预测情报侦查的属性

1.动态性数据链路预测情报侦查的度相关性。在动态性数据链路预测情报侦查的应用过程中,可以将度分布和平均度分别看作动态性数据源中的0阶和1阶关联特性。虽然在动态性数据源中可能存在相同或相似的度分布与平均度,但是往往会呈现出不同的链路预测行为和性质。数据节点的度相关性作为动态性数据链路预测情报侦查中高阶度分布属性的一种不同数据节点之间的链路模式,如果动态性数据源中某数据节点接近于其预设数据度相同或相近的阈值,那么该动态性数据的度相关性即表现为同配特征的正属性;反之,则表现为异配特征的负属性。在度不相同的动态性数据源中,任意两个数据连边中数据节点的阈值都是随机且不完全相同的。在动态性数据链路预测情报侦查的度相关性属性中,挖掘与判定其度相关性的方法主要包括两个方面:一方面,通过运算分析所有涉案动态性数据源中数据节点与其相邻节点之间平均度的相关性阈值,如果两者之间数据节点的度相关性为正属性,那么从数据节点接近于度相关阈值的角度而言,其必然具备动态性数据同配特征的正属性范畴;反之,则具备动态性数据异配特征的负属性范畴。另一方面,利用皮尔森相关的链路预测算法进而提出动态性数据同配的加权指标系数,从而实现对动态性数据同配或异配阈值的定量挖掘与分析。因此,在动态性数据链路预测情报侦查的度相关性属性中,各个数据节点往往相邻与其度相关性阈值相同或相近所呈数据簇而聚类,促使大部分的动态性数据源具有同配特征的正属性关系。而在度相关性阈值呈现较小数据节点的动态性数据源中,其具有突出异配特征的负属性关系。然而,各个动态性数据源的度相关性同配或异配属性并不是属于绝对不变状态,会随虚拟空间网络情势的变化规则而互相转化。

2.动态性数据链路预测情报侦查的小世界性。小世界(Small world)的内涵范畴来源于Milgram对虚拟空间网络连锁邮件的实验研究,要求实验员把邮件通过熟人的传递方式将其快速有效地邮寄到距离位置遥远的收件人,大部分的邮件都会经过五六次的传递后即可被收件人所获取。[5]小世界的理念与特性最早被应用于验证“六度分离现象”,即在数据化的社会生活中人们平均经过五个人便能够产生关联。近年来,尤其随着结构化数据、半结构化数据、非结构化数据以及异构化数据等海量复杂动态性数据源的迅猛产生与发展,更加验证和揭示了动态性数据链路预测具有小世界的特殊属性。诚然,动态性数据链路预测情报侦查的小世界属性主要包含两个方面含义:第一、数据平均距离较小。在动态性数据链路预测情报侦查应用的过程中,各数据节点之间的平均距离〈d〉与动态性数据链路预测情报侦查的应用价值和实践需求〈N〉呈突出的对数关系即〈d〉∝lnN。尽管该对数关系的函数具有不断增长的发展态势,但是其海量复杂动态性数据源的数据平均距离仍然比较小;第二、数据聚类加权系数较大。与传统实体物理空间的小数据相比较而言,虚拟空间网络时代动态性数据链路预测情报侦查的数据聚类加权系数较大,促使侦查人员在对其进行挖掘与分析过程中具有显著的链路预测局部特性和数据簇的聚类效果。显然,小世界属性促使侦查人员在动态性数据链路预测情报侦查应用过程中具有重要的侦查启发价值作用,这种价值作用的差异性主要由侦查人员对各种海量复杂动态性数据源的挖掘与分析能力所决定。所以,侦查人员利用小世界属性来对各种数据节点距离进行及时有效的运算和数据聚类,能够全面提升动态性数据链路预测情报侦查应用的高效性。

3.动态性数据链路预测情报侦查的幂律度分布性。度分布P(k)表示在动态性数据链路预测情报侦查中所有k属性数据节点占据所有数据节点的比例系数,比较常见的度分布包括指数分布、泊松分布、二项分布等。动态性数据链路预测情报侦查中数据节点生成机制的不同范式,造成其产生度分布的比例系数具有差异性。尤其在泊松随机动态性数据链路预测情报侦查过程中,任意两个数据节点之间由于以固定不变的概率产生数据连边,促使其任意一个数据节点度分布系数的预设阈值都是相同的。在动态性数据源规模较大与固定平均度互相结合和互相影响的链路预测情报侦查情势运算下,该二项分布可以帮助侦查人员实现数据节点的度分布无限接近泊松分布的阈值。显然,不管是数据节点的指数分布还是泊松分布以及二项分布等,都促使在动态性数据链路预测情报侦查的应用过程中具有典型的幂律度分布属性即P(k)∝k-y。而其真实幂律度分布的系数y往往阈值介于2与3之间,且该系数具有明显的曲线长尾特性和不明显的特性标度。同时,动态性数据链路预测情报侦查的幂律度分布属性又被称为无标度数据节点属性。所以,在虚拟空间网络的动态性数据坐标运算情势中,动态性数据链路预测情报侦查的幂律度分布属性系数呈现出曲线且向线性分布发展的态势。

二、动态性数据链路预测情报侦查的流程模型构建

动态性数据链路预测情报侦查活动是侦查人员根据侦查情势的发展态势而按照情报侦查工作的特殊流程而展开,动态性数据链路预测情报侦查的流程主要包括其基本环节等。动态性数据链路预测情报侦查的流程虽然具有相对的稳定性,但也并非一成不变。当新的数据化生存犯罪情势的出现、新的情报侦查价值需求导向的迫切需要以及新的生活生产和生活方式的变革等都会必然地引起动态性数据链路预测情报侦查流程的嬗变。因此,结合动态性数据链路预测的算法优势和数据化犯罪情势的发展态势,将动态性数据链路预测情报侦查的流程构建分为情报侦查的价值需求、动态性数据情报的生成、情报侦查决策的支持等三个流程。

(一)情报侦查的价值需求流程

在虚拟空间网络的运行情势下,动态性数据源不仅包括结构化数据、非结构化数据而且还包括半结构化数据、异构化数据等。动态性数据源来源的广泛性和丰富性,给动态性数据链路预测情报侦查的应用带来了巨大的机遇。这不仅有利于侦查人员凭借动态性数据链路预测的算法优势让情报侦查的价值需求更加显性化,而且还进一步有利于促使情报侦查的价值需求更加精确化和主动化,从而促使侦查人员在动态性数据链路预测情报侦查应用过程中实现其应然价值。

情报侦查的价值需求流程是开展其他动态性数据链路预测情报侦查流程环节的基础,而动态性数据链路预测情报侦查的流程环节则是情报侦查价值需求服务的措施与方法。根据动态性数据链路预测情报侦查的实践应用需求,可以将情报侦查的价值需求分为显性情报侦查价值需求和隐性情报侦查价值需求。显性的情报侦查价值需求是指侦查人员自己挖掘发现并据此请求情报侦查的价值请求服务,而该部分情报侦查的价值请求相对而言比较简单。隐性的情报侦查价值需求是指侦查人员在案件侦查的初始并未有挖掘和发现,但根据后期犯罪情势的变化发展而具有潜在需要的价值需求。显然,隐性的情报侦查价值需求首先需要侦查人员根据案件侦查的实际需求导向进行情报侦查的价值预设,然后搜集和获取与涉案有关的各种动态性数据源并进行数据清洗、数据仓库构建等处理。其次,对所获取的各种动态性数据源采取链路预测算法和建立关联规则构建模型,从而获取情报侦查价值的隐性需求。最后,将情报侦查价值的显性需求和隐性需求互相结合,从而确定动态性数据链路预测情报侦查的整体情报侦查价值需求方向和范围。

在获取到整体情报侦查价值的需求方向和范围之后,具体主要从价值需求内容和价值需求形式两个方面展开。其中,情报侦查价值的需求内容具体包括动态性数据源中各数据集合、数据节点、数据路径的类型、格式、阈值等,这决定了后续动态性数据源的来源获取途径、链路预测算法的选择、相关性数理关系挖掘的深度以及情报侦查预测和决策的层次度等。而情报侦查价值的需求形式是指动态性数据链路预测情报侦查的服务模式,主要受侦查人员对情报侦查的挖掘能力水平与动态性数据链路预测的算法选取所影响和制约,从而决定了动态性数据链路预测情报侦查活动在满足情报侦查价值需求流程中的参与度和支持度。在同等条件下,如果侦查人员具备很强的情报侦查挖掘能力和选取准确高效的动态性数据链路预测算法,那么其在满足情报侦查价值需求流程中则具有很高的参与度和支持度。同时,还有利于侦查人员激发和获取更多的情报侦查需求。(如图1)

2.2.1 千粒重。施用磷肥能增加小麦的千粒重详见表4,分析可知施用磷肥的小麦千粒重平均为40.3 g,比未施用磷肥的小麦千粒重38.0 g重2.3 g。

图1 情报侦查的价值需求过程

所以,在情报侦查的价值需求流程中,一方面,侦查人员通过对动态性数据源的挖掘与分析促使其能够主动地发现和确定整体情报侦查的价值需求并给予满足;另一方面,情报侦查的价值需求活动又是一把双刃剑,其既能够帮助侦查人员对情报侦查的价值需求展开更加准确的预测分析,又由于预测分析结果的静态僵硬化而导致情报侦查的价值需求受到局限性,从而出现部分的隐性情报侦查价值需求被忽略,以及限定了隐性情报侦查价值需求和显性情报侦查价值需求之间的互相融合和互相转换等现象问题。

(二)动态性数据情报的生成流程

在虚拟空间网络动态性数据链路预测情报侦查的应用情势下,动态性数据源不仅具有开放性、动态性、群智能性等突出特点,而且各种结构化数据、非结构化数据、半结构化数据以及异构化数据等动态性数据源还呈现出互相融合和互相交互的并存现象,促使动态性数据链路预测情报侦查的数据处理技术具有很强的时效性。侦查人员对动态性数据源进行及时有效的搜集、清洗、仓库构建以及数据集成等环节,是实现动态性数据链路预测情报侦查应用价值和实践效果的关键性步骤。显然,在情报侦查的价值需求流程完成之后就必然需要进入动态性数据情报的生成流程。所以,动态性数据情报的生成流程不仅是将动态性数据源转换为侦查情报的必经途径,而且还是衔接情报侦查的价值需求流程与情报侦查决策的支持流程的重要桥梁。

根据动态性数据链路预测情报侦查应用的实践价值导向需求和结合虚拟空间的发展特点、动态性数据的内涵属性、链路预测的算法优势等,可以将动态性数据情报的生成流程自下而上分为动态性数据的物理层、候选相关的动态性数据情报、相关的动态性数据情报、规范的动态性数据情报以及侦查知识和侦查方法经验五个方面,与其相对应的分别是情报采集、情报处理、情报加工、情报组织、情报分析等环节。其中:第一环节为情报采集。在虚拟空间网络环境运行情势下,海量数据构成对社会生活全面、系统的记录,因而数据可以完整、实时地反映事物的过去和现状。[6]虽然动态性数据源的来源种类比较复杂和多样化,但是总体可以分为虚拟网络空间的动态性数据和现实实体的动态性数据两部分。这些动态性数据源经过选择和采取采集方法、采集工具、采集程度等系列的措施之后,筛选和提炼形成动态性数据的物理层,从而为动态性数据情报的生成流程提供重要的数据支撑和保障。第二环节为情报处理。尽管所获取的动态性数据源数量呈TB、PB等趋势迅猛发展,但是也存在诸如无效数据多、数据更加冗余等突出问题。这就必然需要对情报采集后的各种动态性数据源进行数据清洗,采取划定有效数据范围、数据价值判断、确定合理数据采集度等技术,促使形成候选相关的动态性数据情报。第三环节为情报加工。经过情报处理环节之后,侦查人员对候选相关的动态性数据情报需要按照特定的形式进行存储才能够使其变成有情报侦查价值的有关动态性数据情报。例如,侦查人员可以采取将无规则数据转换成格式规范的数据、建立数据索引规则、预设数据的读取权限等技术方法,从而实现将这些被情报加工后的规范数据统一存储到构建的数据仓库之中。第四环节为情报组织。在动态性数据情报的生成过程中,只有将规范处理后有价值的相关动态性数据经过数据集成后并理解掌握才能够发挥最大的情报价值。诚然,动态性数据源不仅包括数值型数据、文字型数值以及图片型等多种数据种类,而且还呈现出结构化数据、非结构化数据、半结构化数据以及异构化数据等多种数据表示格式。显而易见,迫切需要对各种动态性数据源进行数据集成。侦查人员可以通过采取统一数据结构、客观重现数据内容以及准确有效理解数据语义等具体措施,从而帮助侦查人员实现规范的动态性数据情报。第五环节为情报分析。首先,该环节通过数据聚类、数据智能合约等方法对动态性数据源中数据集合、数据节点、数据路径等数据特征和属性进行归纳与分析,主要目的是实现对动态性数据源的情报分类;然后,采取LP算法、SRW算法以及LRW算法等链路预测算法对情报分类后动态性数据源的关联数理关系进行挖掘与分析;最后,侦查人员利用侦查知识和侦查经验方法等逻辑推理方法,将上述动态性数据情报转化和提炼为动态性数据链路预测情报侦查的决策数据。(如图2)

图2 动态性数据情报的生成流程

(三)情报侦查决策的支持流程

动态性链路预测情报侦查应用的主要目标是实现“情报侦查目标-解决方案”的高度匹配,促使侦查人员能够获取海量跨领域多、精确性高、关联性强等有效的侦查情报,从而为侦查人员作出的侦查决策提供支持和帮助。就动态性数据链路预测情报侦查的应用流程而言,经过情报侦查的价值需求和动态性数据情报的生成流程之后,必然需要进入其最终目标即情报侦查决策的支持流程。各种动态性数据情报只有经过情报侦查决策的支持流程之后,才能最终实现动态性数据链路预测情报侦查的应用价值和实践目标。

在情报侦查决策的支持流程过程中,首先,侦查人员需要确定动态性数据链路预测情报侦查的决策目标,通过采取动态性数据链路预测算法进而确定动态性数据链路预测情报侦查决策目标的需求导向和需求维度;再根据动态性数据链路预测情报侦查决策的目标需求确定情报侦查决策的运行情势,并将情报侦查决策的运行情势和情报侦查决策的目标互相融合和分解,通过采取各种动态性数据链路预测算法而构建情报侦查决策的目标模型;在确定情报侦查决策的目标任务之后,综合情报侦查决策的目标模型和数据模型,从而帮助侦查人员完成对情报侦查决策目标任务的解读。其次,根据情报侦查决策的目标任务,侦查人员采取动态性数据链路预测算法通过侦查逻辑推理等方法进而获取和提炼与涉案犯罪情势具有内在关联性的各种数理关系。最后,针对动态性数据链路预测情报侦查决策中每个实际需要解决的维度问题,结合情报侦查决策所运行的环境情势和动态性数据链路预测的算法优势,建立动态性数据链路预测情报侦查的侦查决策模型。同时,在该侦查决策模型预设数个子策略的关联规则,通过采取策略优化、策略组合等措施促使寻找出解决侦查决策的最佳路径。(如图3)诚然,情报侦查决策的支持流程更多是强调对规范后的动态性数据情报源进行客观和准确的解读,不断优化关联规则并构建情报侦查决策的模型,利用动态性数据链路预测算法优势提升情报侦查决策支持流程的收敛速度和挖掘效能,尽量避免或减少传统人工的干预参与度。因此,情报侦查决策的支持流程对实现动态性数据链路预测情报侦查决策目标具有决定性的重要作用。

图3 情报侦查决策的支持流程过程

三、动态性数据链路预测情报侦查的指标体系与评价方法

动态性数据链路预测情报侦查能够将动态性数据、链路预测以及情报侦查三者有效地互相衔接和互相融合,不仅是打击在虚拟空间网络情势中犯罪情势呈现数据化生存态势发展的应然选择,而且还是数据驱动创新时代情报侦查工作创新和改革的内在实然需求。然而,在动态性数据链路预测情报侦查应用的过程中,由于存在动态性数据源的海量复杂性、链路预测算法的层次性以及情报侦查的特殊性等侦查情势的影响和制约,迫切需要构建动态性数据链路预测情报侦查的指标体系和评价方法。这不仅能够对动态性数据链路预测情报侦查的流程构建起到检验和修正的作用,而且还能够对后续动态性数据链路预测情报侦查的具体应用方法起到验证和评价的反馈价值。

(一)动态性数据链路预测情报侦查的指标体系

1.共同邻居指标及其衍生指标。在动态性数据链路预测情报侦查指标体系中,共同相邻CN指标是最基础的指标。共同相邻CN指标在动态性数据链路预测情报侦查中的价值为:如果任意两个数据节点共同连接的邻居数据节点指数越多,那么这两个数据节点产生与发展为数据连边关系的概率就越高;反之,则概率越低。[7]若在共同相邻CN指标中再引入若干具有度信息属性的数据节点,则能够促使其衍生其他动态性数据链路预测情报侦查的相似性指标。侦查人员通过对各数据节点之间的数据距离、数据路径等数据结构的局部采取链路预测算法,就能够获取到与其相对应的动态性数据链路预测情报侦查关联相似性指标指数,然后再将其由局部应用于整体即可。而在通过共同相邻CN指标衍生的其他相似性指标中,具有代表性的有Salton指标、Jaccard指标以及Sorensen指标等。[8]其中,Salton指标是指在动态性数据链路预测情报侦查共同相邻CN指标的基础上,结合被引入数据节点度信息的运算结果阈值而形成相似性的新指标系数,又被称为余弦相似性指标。Jaccard指标是指在动态性数据链路预测情报侦查共同相邻CN指标的基础上,分别计算新加入数据节点之间相邻并集和交集的势,从而获得动态性数据链路预测情报侦查新相似性的衍生指标。Sorensen指标也是建立在动态性数据链路预测情报侦查共同相邻CN指标的基础上,但是该指标系数主要取决于共同相邻CN的势和数据节点度分布阈值之和。

2.数据节点度分配权重指标。就动态性数据链路预测情报侦查指标体系的应然价值而言,数据节点度分配权重指标是其必然选择,而AA指标和RA指标就属于典型的数据节点度分配权重指标。AA指标和RA指标的主要原理为:度数较小的数据节点对一个与其相邻作用影响力往往大于度数较大的数据节点。[9]在数据节点度分配权重AA指标中,任意两个数据节点所计算出来的相似性指标系数都是通过与其全部共同相邻数据节点度的对数分之一并累加求和所获得。而数据节点度分配权重RA指标系数的运算思路更多是对各种动态性数据源的分配过程,而其指标系数主要为全部共同相邻数据节点度的倒数并累加求和。显然,数据节点度分配权重RA指标和RA指标都是通过对动态性数据源中数据节点度的运算,二者能够充分利用和发挥数据节点度分配的数据阈值。[10]因此,数据节点度分配权重AA指标和RA指标能够帮助侦查人员全面提升动态性数据链路预测情报侦查应用的关联性和准确性。

4.数据节点间紧密相似性指标。在动态性数据链路预测情报侦查指标体系的构建过程中,侦查人员有时可能会面对部分无权无向的动态性数据源,而该类动态性数据源往往会严重影响或制约动态性数据链路预测情报侦查应用的收敛速度和质量。基于此,引入数据节点间紧密相似性指标的应用技术方法。在数据节点间紧密相似性指标中,若该无权无向的动态性数据源表示为G(A,B),则A和B分别表示为动态性数据源中数据节点与数据连边的集合。[12]侦查人员在动态性数据链路预测情报侦查应用的过程中会给任何一对数据节点a和b都分配一个数据阈值sab,其主要目的是用来测量与计算数据节点a和数据节点b之间的相似性,即数据节点a与b之间能否实现数据连边的概率性。显然,在数据节点间紧密相似性指标挖掘与分析中,侦查人员通过指标系数sab的分数值即可预测和判断数据节点之间能否实现数据连边的概率。因此,就数据节点间紧密相似性指标系数关系而言,数据节点之间紧密性的指标系数,往往与其存在间接联系的数据节点数目息息相关,而共同邻居数据节点也是大部分动态性数据链路预测相似性指标体系挖掘与分析的最主要系数根源。

(二)动态性数据链路预测情报侦查的评价方法

动态性数据链路预测情报侦查核心内容就是对不同动态性数据源进行相似性的链路预测,从而能够促使侦查人员作出及时有效的侦查预测和侦查对策。各种动态性数据源的数据节点之间相似性指标系数越大,则其数据节点之间形成数据连边的概率性也就越大,也就更加有利于动态性链路预测情报侦查应然价值和实践效果的实现。然而,在动态性数据链路预测情报侦查的应用过程中,不同动态性数据情报侦查的指标体系构建也会形成不同链路预测的情报侦查结果。因此,侦查人员应该根据各种动态性数据链路预测的算法优势、数据节点之间相似性指标的系数属性以及案件情报侦查的实际价值导向需求等要素,对动态性数据链路预测情报侦查的应用过程和实践效果及时进行评价,从而促使侦查人员实现对动态性数据链路预测情报侦查应用能够及时进行修正和反馈的价值作用。

3.数据节点中心性计算评价方法。在动态性数据链路预测情报侦查的应用过程中,数据节点中心性的计算对动态性数据链路预测情报侦查的准确性具有重要的决定性作用。数据节点中心性的重要性是指数据节点在动态性数据链路预测中的地位,也可以将其当作动态性数据中的影响力和制约力。[14]依据动态性数据链路预测情报侦查应用中数据节点距离的不同范围,可将数据节点中心性计算评价方法具体分为数据节点度中心性、数据节点接近中心性以及数据节点介数中心性三个评价方法。第一,数据节点度中心性评价方法。数据节点度中心性是指预设数据节点目标与其他数据节点存在数据连边的邻居数量,即一个数据节点的数据连边邻居数量越多则其价值和作用也就越大。显然,数据节点度中心性评价是动态性数据链路预测情报侦查应用最为直接和简单的评价方法,具有收敛数据速度快、运算成本低、直观可视化等显著特点。第二,数据节点接近中心性评价方法。数据节点接近中心性主要是通过动态性数据源中任意数据节点与其他数据节点之间的平均数据路径距离阈值而获得,如果一个数据节点与其他动态性数据源中任意数据节点的平均数据路径距离阈值越小,那么该数据节点接近中心性的概率就越大。可见,在动态性数据链路预测情报侦查应用的过程中,数据节点接近中心性评价方法不仅具有提高评价运算的高效性,而且还能够进一步避免或减少离散数据的影响和制约。第三,数据节点介数中心性评价方法。数据节点介数中心性评价方法主要作用是衡量一个数据节点与其他数据节点之间存在最短数据路径距离的相似性指标系数的次数,即动态性数据源中所有其他数据节点之间的最短数据路径距离中经过该数据节点的相似性指标系数的次数,代表该数据节点控制和制约其他数据节点的链路预测收敛速度和效能。因此,在对动态性数据链路预测情报侦查应用的检验与修正的过程中,数据节点的介数中心性评价指标系数越高,说明其在动态性数据链路预测情报侦查应用中的重要性就越强,那么该数据节点控制与制约其他数据节点的作用也就更强,而对其他数据节点的影响力和依赖性也越大。

四、动态性数据链路预测情报侦查的应用方法

将动态性数据应用到社会生产生活等各个行业领域之中,是虚拟网络空间动态性数据产生和发展的必然趋势。尤其随着各种结构化数据、非结构化数据、半结构化数据以及异构化数据等动态性数据源的高速增长,造成时态数据空间分析、时空风险探测分析、空间锚点预测分析等传统动态性数据挖掘与分析算法呈现出数据节点指标差异性大、数据情报衔接缺失、预测算法准确度低等突出问题,导致各种复杂海量的动态性数据源难以被及时高效的挖掘和利用。因此,在虚拟网络空间新时代应该赋予动态性数据链路预测情报侦查应用的新方法,这不仅是将动态性数据、链路预测与情报侦查工作互相衔接进行创新和变革的应然要求,而且还是预防和打击涉嫌犯罪行为数据化生存态势发展的实然需求。

(一)局部差异融合链路算法

在动态性数据链路预测情报侦查应用的过程中,数据节点之间的共同邻居数量是常用的相似性指标系数,往往用F(X)和F(Y)来表示两个数据节点之间存在共同邻居数量的集合,而这两个数据节点的共同邻居数据集合则表示为:F(C)={C1,C2,C3,…,Cn}。局部差异融合链路算法的指标系数主要被集中在封闭式动态性数据源的共同邻居数据节点之中,对共同邻居任意的数据节点而言其地位都是相同的。[15]共同邻居数据节点集合不但属于是动态性数据源中的被包含内容,而且其还具有数据节点之间差异性等独特的属性。基于此,在局部差异融合链路算法中引入Adamic-Adar指标系数和数据节点分配指标系数的数据节点差异性建模模型。即在全部动态性数据源的数据节点链路预测过程中,侦查人员对共同邻居不同数据节点的相似性指标系数运算之后,按照Adamic-Adar指标系数和数据节点分配指标系数的差异性属性将与其对应的指标设置为倒数或指数倒数的运算范式,从而运算不同数据节点在动态性数据链路预测情报侦查中的价值效果。显然,在动态性数据链路预测情报侦查的局部差异融合链路算法应用中,侦查人员依据数据节点引力算法在寻找和挖掘其在共同邻居数据节点集合中的数据节点度分布运算时,还可以考虑加入数据节点的正相关因子,即Ee。侦查人员利用局部差异融合链路算法在分析和研判涉案犯罪情势数据化生存态势的发展变化过程中,可以采取数据节点Z与其他共同邻居数据节点X和Y的链路预测指标的数据连边加权系数,进而形成一个对动态性数据链路预测情报侦查具有全局性指导价值的数据节点集合度,即F(X)∩F(Y)∪{X,Y}。从动态性数据源中数据节点的同质性属性而言,具有相似性指标系数的数据节点往往会产生和形成具有数据连边的一个局部涉案犯罪情势结构,这在包括犯罪时间数据、犯罪空间数据、犯罪过程数据等很多实体落地情报侦查中能够得到有效的检验和证实。同时,侦查人员还可以利用局部差异融合链路算法对不同动态性数据源中的数据节点融合展开运算和分析,从而帮助其计算和确定共同邻居数据节点集合到任意一个具有相似性指标数据节点的最短数据路径和数据距离。因此,局部差异融合链路算法不仅能够帮助侦查人员及时有效地确定不同数据节点构成共同邻居数据集合的同质性程度与加权系数,而且还能够帮助其快速准确地计算和分析最佳数据节点的数据路径和数据距离,从而实现提高动态性数据链路预测情报侦查应用的收敛速度。

(二)数据协同链路预测算法

在动态性数据源中往往存在多种类型的链路预测范式,而不同的链路预测中还存在已知链路预测、未知链路预测等链路预测的稀疏问题,并且未知链路预测还进一步多于已知链路预测的数量。[16]由于不同动态性数据链路预测运算范式之间可能也会存在互相影响或互相制约的情况,这就必然要求侦查人员在动态性数据链路预测情报侦查应用过程中采取数据协同的链路预测算法。即侦查人员在采取一种动态性数据链路预测范式的同时,还可以利用其目前的动态性数据源采取另外一种链路预测范式进行运算,进而提高动态性数据链路预测情报侦查应用的预测效能。同时,在一种动态性数据链路预测结束之后,其预测情报数据继续可以被用于其他链路预测范式继续进行,这是一个数据协同互补式的链路预测运算循环过程。鉴于此,侦查人员可以先将结构化数据、非结构化数据、半结构化数据以及异构化数据等各种不同动态性数据源中的带标数据和无带标数据互相融合起来,然后将当前动态性数据链路预测的目标对象限定为有限的带标数据,而其他链路预测的目标对象则为无标数据。显然,在数据协同链路预测算法的应用过程中,每种不同动态性数据链路预测算法的价值效果优势决定了利用不同的带标数据或无标数据。另外,不同的动态性数据链路预测范式在数据协同互补的链路预测时候还存在利用相同或相似的动态性数据源现象,进而有利于侦查人员能够快速有效地挖掘与分析其内在具有相关性的各种数理关系。数据协同链路预测算法的本质是属于一种典型的动态性数据迭代算法,主要根据数据节点相似性指标系数来计算和挖掘每条动态性数据链路预测的价值与作用。诚然,数据协同链路预测算法具有对不同动态性数据源进行多种链路算法协同预测的情报侦查价值作用。每次在迭代推理过程中都可以同时预测出多种可能并存的链路预测算法,进而帮助侦查人员实现对准确度比较高的链路预测算法给予数据邻居矩阵进行加权系数更新和选择。因此,在动态性数据链路预测情报侦查应用的过程中,数据协同链路预测算法不仅具有提升动态性数据链路预测情报侦查应用准确高效的价值,而且还具有能够为其他不同链路预测算法提供互相补充、互相协同的印证作用。

(三)AdaBoost链路预测优化算法

Polikar R等学者经过对集成学习(ensenmble learning)研究后得出结论:人们在对各种相关问题进行最后决策时,往往会在做出决策前不断寻找出多种不同可能存在的决策方法与决策结果。只有对可能存在不同决策方法与决策结果进行互相权衡利弊之后,才能够促使人们从而选取出最佳的决策方法与决策结果。[17]与单一的决策方法系统相比较而言,多种不同决策方法系统的决策集成会形成更加利益最大化的决策结果。同样的选择决策方法原理也适用于统计机器学习研究范畴,即单一的数据分类器在不同的数据挖掘与分析结果上可能存在不同的运算结果,而依据特定原则对多种不同数据分类器进行数据集成后,则可能实现某种数据算法效能的全面提升,从而起到降低数据收敛时间和运算结果风险等的实然效果。而Boosting方法就是一种对数据集成学习非常有效的运算方法,其具有典型的提升任意给定学习算法高效性和准确性的突出作用。[18]

在Boosting方法研究的基础之上,学者Schapire和Freund等人于1995年提出Boosting方法的典型代表算法,即AdaBoost链路预测优化算法。AdaBoost链路预测优化算法显著的价值优势在于人们在动态性数据链路预测的过程中,不需要任何关于数据清洗、数据预处理以及数据仓库构建等前置性的专业运算知识和经验,其基本的运算原理是赋予人们对动态性数据源进行数据分类预设阈值正确的较低加权指标系数,同时提高数据分类预设阈值失真和偏差的最高加权指标系数,从而促使人们能够得到加权指标组合系数精确度很高的动态性数据分类器。而在动态性数据链路预测情报侦查应用的过程中,侦查人员可以全面采取和引入AdaBoost链路预测优化算法。首先,侦查人员可以将动态性数据链路预测情报侦查的应用当作一个涉及动态性数据二分类的相关问题,并将动态性数据源中可能存在数据连边关系的数据节点分为两大类即存在数据连边和不存在数据连边。然后,采取AdaBoost链路预测优化算法通过挖掘与分析将与涉案犯罪情势具有弱相关性数理关系的数据节点转换为具有强相关性数理关系的数据节点。最后,根据涉案犯罪行为与非犯罪行为关联规则模型而采取AdaBoost链路预测优化算法作为动态性数据源的重要数据分类器,从而帮助侦查人员能够及时有效地挖掘与分析出隐藏在不同动态性数据源背后且与涉案犯罪情势具有内在的各种相关性数理关系。在动态性数据链路预测情报侦查的应用过程中,AdaBoost链路预测优化算法不仅能够降低情报侦查预测的误报率和提高动态性数据链路预测的灵敏度,而且还能够进一步提高动态性数据链路预测算法的召回率,从而实现提高动态性数据链路预测情报侦查应用的关联性和准确性。

(四)粒子群链路预测优化算法

在动态性数据链路预测情报侦查应用的过程中,侦查人员在发现和获取到各种动态性数据源的数据节点特征、数据节点标签等数据结构后便可以直接将其应用到情报侦查中。然而,侦查人员在面对非结构化数据、异构化数据等复杂特殊的动态性数据源时如果将其挖掘与分析结果直接应用于动态性数据链路预测情报侦查之中,那么实际应用效果就会造成出现情报侦查预测和情报侦查决策的失真或偏差,部分甚至还会导致案件出现情报侦查错误或情报侦查僵局等现象。造成产生的原因主要包括两个方面:一方面,动态性数据源中有数据连边的数据节点数目往往小于没有数据连边的数据节点数目,造成侦查人员不能及时有效地发现和确定与涉案犯罪情势具有内在相关性的各种数理关系;另一方面,传统动态性数据链路预测算法是在有监督的情势下进行,就必然会导致数据节点、数据路径以及数据距离等出现数据维度冗余等现象,严重地影响和制约了动态性数据链路预测情报侦查应用的客观性和效能性。

(五)数据节点亲密度链路预测算法

(六)文本增强链路预测算法

尽管在目前已有部分链路预测算法中引入文本数据增强相关因素,但是也仅局限于将文本数据增强作为一项特殊的数据节点考虑。文本增强链路预测算法属于一种异构动态性数据源的链路预测算法。我们认为,在动态性数据链路预测情报侦查应用的过程中,可以将文本数据转换为文本矩阵特征,然后采取数据矩阵相似性算法将文本矩阵特征融入到对动态性数据源中数据节点的链路预测算法之中。文本增强链路预测算法的本质就是在利于神经矩阵分解模型运算与挖掘数据节点、数据路径以及数据距离等数据结构之后,再对被挖掘与分析出来的矩阵特征进行链路预测运算。[21]显而易见,文本增强链路预测算法与传统引入文本数据增强的链路预测算法有着本质性的区别。侦查人员在采取文本增强链路预测算法的过程中,首先将TADW算法与动态性数据链路预测情报侦查目标互相结合,然后将结合后所形成的文本数据矩阵T分解为侦查预测和侦查对策目标的矩阵M,其次利用余弦数据节点相似性算法对动态性数据源中各个数据节点进行链路预测,最后寻找和确定不同数据节点之间的相似性指标系数和数据节点度。显然,文本增强链路预测算法主要是利用TADW算法模型来对动态性数据源中各个数据节点的相似性指标系数展开挖掘与分析。依据TADW算法模型的数据节点运算复杂性和案件侦查情势的发展变化态势不同,侦查人员可以将动态性数据链路预测情报侦查应用中数据节点相似性表示为:Sij=sim(i·j)/(‖i‖·‖j‖),同时将动态性数据源中的数据节点文本矩阵设为T,原始的数据节点为G,基于文本增强链路预测运算公式之一F(X)=(A+A2)/2,将获取后数据节点的矩阵特征表示为M。至此,侦查人员利用文本增强链路预测算法对所获取的数据节点矩阵特征M进行分解,得到分解后新的数据节点矩阵W、H、T,而新数据节点矩阵W、H、T都包含原数据节点矩阵M的分解因子。因为文本增强链路预测算法流程主要包括数据节点特征运算、数据表示学习、数据节点相似性矩阵以及数据节点链路预测等运算流程。所以,从实现动态性数据链路预测情报侦查的应然价值效果而言,文本增强链路预测算法不仅具有避免或减少数据节点相似性指标差异性的突出作用,而且还促使不同数据节点所形成的数据情报能够及时有效的衔接,从而实现全面提高动态性数据链路预测情报侦查的运算准确性和高效性。

综上所述,动态性数据链路预测情报侦查方法是现代虚拟空间网络内对不同动态性数据源进行运算与挖掘的一种新型情报侦查方法,并且还包括局部差异融合链路算法、数据协同链路预测算法、AdaBoost链路预测优化算法、粒子群链路预测优化算法以及数据节点亲密度链路预测算法、文本增强链路预测算法等多种的动态性数据链路预测情报侦查方法,且不同的动态性数据链路预测情报侦查方法都有着不同的链路预测算法优势。基于此,引入动态性数据链路预测情报侦查方法研究范式。以动态性数据链路预测情报侦查的内涵与属性为研究逻辑起点,构建动态性数据链路预测情报侦查的流程模型,提出动态性数据链路预测情报侦查的指标体系与评价方法,并对动态性数据链路预测情报侦查的应用方法展开研究。这不仅促使侦查人员能够提高对不同动态性数据源中数据节点指标链路预测的互补性和异常数据节点识别与分析的精确度,而且还能够帮助其强化各动态性数据源中数据节点的内部相关性和结构关联性以及提升挖掘与利用算法预测的准确度,从而实现动态性数据链路预测情报侦查的应然价值和实然效果。

猜你喜欢

动态性数据链侦查人员
自组织多主体系统动态性的推理研究
动态性对简笔画动物审美的影响及其神经机制*
管理者认知视角的环境动态性与组织战略变革关系研究
侦查人员出庭问题实证研究
多平台通用数据链助力未来战场
高速公路工程项目实施中数据链应用探析
基于深度学习的无人机数据链信噪比估计算法
侦查人员出庭作证问题研究
国土资源绩效管理指标体系的动态性探讨
一种无人机数据链信道选择和功率控制方法