APP下载

新型基于大数据分析与挖掘的战略决策框架

2022-05-10陈文青

无线电工程 2022年5期
关键词:战略决策军事行动军工

陈文青

(中国人民解放军91776部队,北京 100161)

0 引言

随着军事数据量爆炸式地增长,军队及军工研究所需要在复杂多变的军事环境中做出更好的战略决策。为了应对复杂多变的军事环境,军队及军工研究所需要在战略决策过程中收集大量的军事数据,将规范的军事数据持久化保存,并且对军事数据进行分析,挖掘出军事数据中蕴含的军事价值,进而制定出准确、长远、全局的战略决策[1]。

传统的战略决策模型如波士顿矩阵[2],应用于军事环境中主要基于军队武器装备的多样性和军工产品的先进性来分析军事战斗力,评估军队及军工研究所的各类武器装备和军工产品的重要性,进而合理安排军队及军工研究所的研发比例,对更有发展前景的武器装备和军工产品加大投资力度。然而,波士顿矩阵也存在着缺点。首先,波士顿矩阵假设各个军事行动相对独立,但是大量的军事数据表明军事行动之间往往具有强相关性,可能无法找到全局最优策略;其次,对于复杂、多态和变化的军事数据,波士顿矩阵具有粗粒度的评价等级,不能精确地评估军事战斗力,使得军队及军工研究所难以制定准确的战略决策。

另一种经典的战略决策模型如麦肯锡矩阵[3],应用于军事环境中加入了更多的评价指标。相比基于军队武器装备的多样性和军工产品的先进性的波士顿矩阵,麦肯锡矩阵的结构更加复杂,能更准确地分析军事战斗力,可以基于军事行动的相关性和武器装备、军工产品的综合实力来制定战略决策,包含了更多的军事因素,能够从全局角度制定更加准确的战略决策。不过,麦肯锡矩阵也存在着局限性。首先,对于信息时代中海量多态的军事数据,麦肯锡矩阵的综合指标的系数难以精确地分配,导致军事行动的评价结果出现偏差;其次,对于一个大型复杂的军事行动,将产生海量的军事数据。由于麦肯锡矩阵的流程繁杂,使得军队及军工研究所的人员不易操作,难以在有限的时间内提炼出有价值的军事信息。

从传统的战略决策模型,如SWOT(Strengths,Weaknesses,Opportunities,and Threats)模型[4]、SCP(Structure-Conduct-Performance)分析模型[5]、AARRR(Acquisition,Activation,Retention,Revenue,Referral)模型[6]等,可以发现,这些方法大多需要收集规范正确的军事数据、制定合理的评价指标和基于专家经验制定特定的军事分析规则。但是,传统的战略决策模型难以持久化存储、清洗和处理海量多态的军事数据。其次,对于复杂多变的军事环境,军队及军工研究所各个军事行动的决策也会不断调整,进而导致这些方法的评价指标不适用于各个军事行动场景,需要重新制定特定的评价指标;最后,基于专家经验的方法需要极其严格地分析规则,但是对于大规模的军事数据而言,人为制定的规则并不能挖掘出数据中隐含的信息,并且军事人员需要消耗大量的时间进行分析。

由于大数据技术的蓬勃发展,许多行业中的机构,如医疗保健、社交媒体、智慧城市、智能交通、能源管理、金融管理和智能农业等[7],开始利用大数据技术来分析行业前景,挖掘出海量数据中隐含的有价值的信息,进而制定准确、长远、全局的战略决策。首先,相比传统的战略决策模型,大数据技术包含先进的工具(如NoSQL,BigQuery,MapReduce等),能够存储和处理海量多态的军事数据[8]。并且大数据分析与挖掘能够帮助军工研究所和军队以可解释的、合理的形式从数据中提取知识。其次,传统的战略决策模型的扩展性和适用性差,而各类数据挖掘技术和机器学习算法可适应不同的军事行动场景,能够分析海量多态的数据,进而建立高可用、易扩展的战略决策模型。最后,大数据分析与挖掘方法是由数据驱动的技术框架,能够从军事数据中获得全面的军事信息,进而在军事行动的智能分析中提供全局性、前瞻性的战略决策。

综上所述,本文首次提出了新型基于大数据分析与挖掘的战略决策框架——BDAM-SDF(Big Data Analysis and Mining-Strategic Decision Framework)。相比传统的战略决策模型,BDAM-SDF具有高可用、易扩展的特点,包含各种大数据技术与平台,可灵活适应各种军事行动场景,并且是一种大数据技术驱动型架构,能够覆盖制定战略决策过程的全部生命周期,能够全方位地获取、存储、分析军事数据,挖掘出有价值的军事信息,进而精确、全面、长远地制定战略决策。

1 BDAM-SDF架构和工作机制

基于大数据分析与挖掘的一体化战略决策框架是一种数据密集型架构,提供了用于数据生成、数据采集、数据存储和预处理、数据分析、数据可视化和战略决策制定的各种技术和平台。

1.1 BDAM-SDF的整体架构

BDAM-SDF整体架构如图1所示。将对BDAM-SDF的各个阶段进行概述,其中数据生成、数据采集和数据存储与预处理为基础设施架构层;数据分析为规范数据集中分析层;数据可视化和战略决策制定为综合管理应用层。

图1 BDAM-SDF整体架构Fig.1 Overall architecture of BDAM-SDF

1.1.1 数据生成

大数据生成是指从各种来源生成数据。数据源包括机器、人和军事行动等。不同数据源的相关性如图2所示。

图2 多源数据的相关性Fig.2 Correlation of multi-source data

其中,与机器相关的数据来自Web服务、传感器、音频设备和视频设备等。与人相关的数据包括工作方向、日常任务和职业等。与军事行动相关的数据包括军队训练数据和联合作战数据等[9]。当讨论基于大数据分析的军事行动时,军事行动相关的数据非常重要。

1.1.2 数据采集

数据采集是指从数据仓库或各种数据库中收集、过滤和清理数据的过程[10],如图3所示。数据采集分为数据探索和数据收集2个阶段。数据探索主要有2个目的:① 确定数据的性质和特征;② 摈弃可能严重影响数据质量的噪声数据。而数据收集是指从现实世界中获取未经处理的数据,例如从不同传感器中收集海量复杂、未处理的数据。

图3 数据采集过程Fig.3 Data collection process

1.1.3 数据存储与预处理

数据存储是指经过数据采集后,将多种类型的数据以不同的形式存储。大数据存储的工具有HBase,NoSQL,Gluster,HDFS和GFS[11]。数据预处理通常使用2种模型进行处理,分别是流处理模型和批处理模型。预处理涉及到一系列步骤:如何集成数据、如何转换数据、如何选择正确的模型进行处理以及如何提供结果。流处理模型尽可能快地处理数据,并且以非常快的速度连续输出处理后的数据。主要的流处理模型包括Storm,S4和Kafka等[12]。批处理模型首先存储数据,然后进行集中处理,主要的批处理模型包括MapReduce[13]等。

1.1.4 数据分析

数据分析是指运用各种机器学习算法、数据挖掘技术和统计分析方法,对异构数据进行分析,挖掘出有价值的隐含信息[14]。大数据分析的目标是通过分析数据获得前瞻性知识并更好地指导后续的战略决策制定过程。进行数据分析时,通常使用机器学习技术。机器学习技术从学习方式分为监督学习、无监督学习和半监督学习;从功能角度分为回归算法(如线性回归、逻辑回归[15]等)、决策树算法(如ID3算法[16]、C4.5算法等)、贝叶斯算法(如贝叶斯网络和高斯贝叶斯算法等)、聚类算法(如K-均值[17]和期望最大化算法等)、基于核的算法(如支持向量机[18]和径向基函数等)以及人工神经网络(如多层感知机[19]和反向传播神经网络),如图4所示。

图4 机器学习技术分类Fig.4 Classification of machine learning techniques

其中,回归算法是基于样本数据,并利用数理统计方法来建立因变量与自变量之间的回归关系函数表达式,即回归方程式。回归算法也是一种预测性的建模技术,主要研究因变量和自变量之间的关系。通常这种技术应用于预测分析、时间序列模型以及探索变量之间的相关性。决策树算法是通过一系列规则对数据进行分类的过程。决策树的生成过程主要分为特征选择、决策树生成和剪枝。其中特征选择是指从训练数据的众多的特征中选择一个特征作为当前节点的分裂标准,并且如何选择特征有很多不同的量化评估标准,从而衍生出不同的决策树算法。决策树生成是根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可再分为止。剪枝是克服决策树容易过拟合的特点。贝叶斯分类算法是统计学的一种分类方法,是一类利用概率统计知识进行分类的算法。朴素贝叶斯分类是贝叶斯分类中最简单的一种,主要是利用贝叶斯公式,并根据某特征的先验概率计算出后验概率,然后选择具有最大后验概率的类作为该特征所属的类。并且朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,能运用到大型数据库中,而且方法简单、分类准确率高、速度快。聚类算法中最普及的是K-均值算法,这是一种迭代算法,首先选择k个随机的点,称为聚类中心,其次对数据集中的每一个数据,按照距离k个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类,然后计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置,最后重复步骤,直至中心点不再变化。人工神经网络如多层感知机,主要是由输入层、隐藏层和输出层组成,其中层与层之间均为全连接,且每个隐藏层的输出通过激活函数进行变换。

1.1.5 数据可视化

数据可视化方法包括以表格、图像和程序来显示数据。目前有各种经典的可视化分析工具,如Dive,Rattle,FlockDB,Flare,Amcharts和Protovis。最近,洛马、波音、三菱重工、诺格和通用动力等公司都在寻找可视化工具以及基于军事分析的智能可视化解决方案[20]。数据可视化也是解释大数据的主要机制之一。从统计科学的角度来看,大数据的使用对数据可视化的发展具有重要意义[21]。

1.1.6 战略决策制定

战略决策制定是指将数据中挖掘出的军事价值进行实现的过程。并且战略决策制定将基于数据分析中挖掘出的有价值的隐含信息。战略决策制定包括战略决策建模、战略决策分析和战略决策完善3个步骤。

决策建模是指基于关键信息来设计和改进军事行动部署方案,并分析军事行动的作战效率、保障水平和制胜要素。在决策建模过程中,需要提供全局性、完整性、长远性的决策模型,包括武器装备平台、战斗保障体系、火力系统和战场通信系统的协同性、作战要素互通性以及联合指挥高效性等。

决策分析分为2个阶段:第1阶段,将决策模型置于各个军事行动场景中,模拟分析决策模型在军队训练中的可适用性和容错性;第2阶段,将决策模型置于军事演习行动中,全方面测试决策模型的可扩展性和健壮性。

决策完善分为2个阶段:第1阶段,将决策分析中出现的问题整理为军事行动调整报告,并且进行针对性地改进;第2阶段,将修改后的决策模型实际置于军事行动中,高效分析军事情报,消除指挥人员的认知局限,精准找到制胜的关键要素,实现战略决策智能化。

1.2 BDAM-SDF的工作机制

BDAM-SDF包括3个工作阶段:数据价值发现、数据价值创造和数据价值实现,工作流程如图5所示。

图5 BDAM-SDF的工作流程Fig.5 Workflow of BDAM-SDF

1.2.1 数据价值发现

在BDAM-SDF中,数据价值发现的目的是获得能够直接进行数据分析的规范数据。因此,数据价值发现基于数据生成、数据采集、数据存储和预处理阶段。为了更好地理解数据价值发现的流程,给出了一个例子。例如,将BDAM-SDF应用于军工产品研发流程中,首先需要进行数据生成,列出军工产品研发流程中产生的各类数据,如军工产品的性能数据、军工产品的交易数据、市场反馈数据和财务数据等;其次,对各类数据进行探索,摈弃数据质量较低的数据,尽可能地选择先进的军工产品研发流程中产生的数据。为了保证高质量的数据,需建立数据清洗方法,包括检查数据的完整性、数据的唯一性、数据的权威性和数据的合法性这4项规则。按照规则来检查原始军事数据,发现质量较低的数据,再对低质量数据采用对应方式进行处理。例如,对于数据不完整的情况,通常表现为数据值缺失,可以使用均值填补法。对于数据不唯一的情况,通常表现为数据中存在重复记录或重复字段,需要进行去重处理,可以将数据按一定规则进行排序,再通过比较邻近记录是否相似来检测数据是否重复。对于检查数据的权威性和数据的合法性,可以使用基于密度的方法来检测错误值、异常值,进而删除错误数据和异常数据。另外,还需要统一数据类型和数据格式,对数据进行标准化处理以满足数据的合法性和权威性。然后,将筛选出的数据进行存储,可使用HDFS进行存储,并且结合MapReduce对数据进行处理,可获得待分析的规范数据。

1.2.2 数据价值创造

数据价值创造主要是将待分析的规范数据结合机器学习算法或数据挖掘技术从海量的规范数据中分析出有价值的关键信息,挖掘出数据中隐含的军事价值。并且在数据价值创造中,选择合适的数据分析技术至关重要。在军工产品研发场景中,评估各种机器学习算法,选取一个最优的方法能够为后续阶段提供更准确的军事信息,使得后续阶段能够制定出更精确的战略决策。在数据分析过程中对各类机器学习算法进行评估,首先需要定义机器学习算法的性能指标,通常不同的算法模型对应不同的性能指标,如对回归模型进行评估时,使用平均绝对误差和平均方差等;对分类模型进行评估时,使用预测准确率、召回率和F1值等。然后将数据集划分为训练集和测试集,并选取多个机器学习算法在训练集上进行训练,为了保证更准确、稳定地评估算法模型,使用交叉验证法,具体为将数据集划分为k个大小相似的互斥子集,每个子集轮流作为测试集,其余的子集则作为训练集,返回k个训练结果的均值。最后基于各个机器学习算法的性能指标,综合考虑选取各个性能指标均排名前列的机器学习算法作为最优方法。后续依然需要使用更多的真实数据集反复对最终选取的机器学习算法进行调参、验证,最终保证算法具有较高的稳定性和泛化能力。

1.2.3 数据价值实现

数据价值实现的目的是为军队及军工研究所制定全局性、准确性和长远性的战略决策,从而分别为军队的军事行动提供制胜要素,为军工研究所的军工产品提供可持续发展的动力。数据价值实现需要结合战略决策建模、战略决策分析和战略决策完善,并且每一个阶段都需要基于数据分析得到有价值的军事信息。在最终制定战略决策之前,还需要结合专家的意见以及军事场景的反馈信息。

2 BDAM-SDF应用案例分析

大型的军工研发机构如洛马、波音、三菱重工、诺格和通用动力等都有推荐系统。推荐系统能够向客户方精准地提供武器装备,使得客户方产生购买意向,最终提高军工产品的交易量。这表明,推荐系统对于整个军工研发机构的战略决策至关重要。

将BDAM-SDF应用于军工研发机构中,首先是构建BDAM-SDF,如图6所示。

图6 BDAM-SDF应用于军工研发Fig.6 Application of BDAM-SDF in military research and development

其中,数据生成阶段是指客户方产生交易数据、军工产品数据和反馈数据的过程。这些数据将由数据服务器保存,然后军工研发机构从数据服务器中采集数据,并且摈弃疑似恶意交易和虚假购买的数据,进而筛选出正常的客户方数据,由分布式文件系统进行存储,如HDFS。其次,将经过预处理后的数据统一由计算框架处理,如MapReduce,进而生成待分析的规范数据。在数据预处理过程中,进行数据清洗,尽可能地去掉噪声数据。最关键的是数据分析阶段,选取一个合适的机器学习算法能够使得推荐更加准确。考虑近3年的机器学习算法,本文选择2种机器学习算法:K-RecSys-CF[22]和SVM-CF[23],这2种算法均在推荐系统中取得了不错的成果。其中,K-RecSys-CF由Hwangbo等人在2018年提出。该算法改进了协同过滤算法,合并了军工产品的点击信息和交易信息,利用项目类型的数据,提出了替换项目的建议。

SVM-CF由Chang等人在2019年提出,这是一种融合协同过滤和支持向量机的新算法。与传统的协同过滤方法不同,支持向量机将军工产品分为正反馈和负反馈,选择表现出积极反馈的军工产品,计算出精确的分数和评价。在军工产品数据上的实验表明,该算法具有良好的推荐精度和有效性。

考虑到支持向量机分类效率较低,本文提出的BDAM-SDF框架采用ACO(Ant Colony Optimization)算法[24]来优化支持向量机的参数,得到最优参数。将改进的SVM-CF命名为SVM-ACO-CF,它的推荐准确率更高,推荐效率也更高。然后,将K-RecSys-CF,SVM-CF和SVM-ACO-CF进行对比,通过实验证明本文所提框架应用SVM-ACO-CF算法优于其他2种主流算法。

2.1 实验准备

在实验准备过程中,将直接使用经过数据预处理阶段后的规范数据集。数据集包括7个军工产品集合(如战斗机、坦克、装甲车、枪械、运输机、导弹和雷达)和近34 000条评论。其中每个集合有4 000个数据项,其中2 500个数据项作为训练集,其余的用于测试。所有算法在Matlab中实现。

2.2 评估指标

预测精度P表示客户方可能喜欢推荐列表中的项目的概率,可用于表示推荐系统的准确度。推荐系统的预测精度为:

式中,m为数据集中一共被划分的个数;u为下标;RLu表示数据集中模型预测为正反馈的所有项目;TLu表示数据集中实际为正反馈的所有项目。召回率R表示推荐列表中客户方喜欢的项目的比率,可以反映用户对推荐结果的满意度。客户方满意度越高,召回率越高。计算推荐系统的召回率为:

式中,F表示整体上评估算法的推荐性能。算法的推荐能力越强,F-measure值越高。推荐系统的F-measure为:

2.3 结果与分析

对应不同的推荐项目值N下,K-RecSys-CF,SVM-CF和SVM-ACO-CF的预测精度P、召回率R和F-measure的结果如表1、表2和表3所示。

表1 不同N值下各个方法的预测精度PTab.1 Prediction accuracy P of each method with different N values 单位:%

表2 不同N值下各个方法的召回率RTab.2 Recall rate R of each method with different N values 单位:%

表3 不同N值下各个方法的F-measureTab.3 F-measure of each method with different N values 单位:%

3种分类器K-RecSys-CF,SVM-CF和SVM-ACO-CF的预测精度P如图7所示。从图7可以看出,SVM-ACO-CF分类器的预测精度最高,K-RecSys-CF的预测精度最低。主要是因为SVM-ACO-CF利用ACO算法能够找到全局最优参数,相比SVM-CF和K-RecSys-CF,SVM-ACO-CF的参数设定更加准确,进而使得分类准确率提高。并且随着推荐项数N值的增加,3种不同分类器的预测精度也会降低。

图7 不同N值的各个方法的预测精度PFig.7 Prediction accuracy P of each method with different N values

不同的推荐项目数N的3种分类器的召回率R如图8所示。从图8可以看出,在不同的推荐项目数中,SVM-ACO-CF的召回率均高于K-RecSys-CF和SVM-CF。并且在推荐项目数N=30时,SVM-ACO-CF的召回率为39%,K-RecSys-CF和SVM-CF的召回率为35%和37%,略低于SVM-ACO-CF。主要是因为SVM-ACO-CF利用ACO算法的全局寻优能力,相比SVM-CF和K-RecSys-CF,能够为SVM-ACO-CF找到最佳参数,进而使得召回率提高。随着增加推荐项目数,3种不同分类器的召回率也会增加。

图8 不同N值的各个方法的召回率RFig.8 Recall rate R of each method with different N values

不同推荐项目数N对应的3种分类器的F-measure如图9所示。从图9可以看出,在推荐项目数为30时,SVM-ACO-CF的F-measure较好,为32%,而K-RecSys-CF,SVM-CF的F-measure较低,分别为25%和30%。随着推荐项目数N的增加,3种分类器的F-measure也有所增加。

图9 不同N值的各个方法的F-measure值Fig.9 F-measure of each method with different N values

经过数据分析后,从规范数据中挖掘出了隐含的军工产品信息,能够准确地推荐军工产品,促进交易量。并且本文所提BDAM-SDF在数据分析阶段选取了较好的机器学习算法,根据实验结果能够证明选取的机器学习算法可以达到良好的推荐准确性和推荐效率。在实验过程中,将实验数据进行可视化,以图像的方式更形象地发掘蕴含的有价值的军事信息。

3 结束语

本文针对如何将大数据分析与挖掘应用到战略决策中,更好地解决全局性、可持续发展性的重大决策问题,提出了一种基于大数据分析与挖掘的一体化战略决策理论框架——BDAM-SDF。概述了BDAM-SDF的整体架构,分别从数据生成、数据采集、数据存储与预处理、数据分析、数据可视化和战略决策制定进行说明。其次,介绍了BDAM-SDF的工作机制,详细描述了BDAM-SDF的数据价值发现、数据价值创造和数据价值实现这3个工作阶段。然后,将BDAM-SDF应用于真实的军工研发机构案例中,详细描述了各个阶段的流程,着重介绍了数据分析阶段,选取了应用于推荐系统中的K-RecSy-CF和SVM-CF机器学习算法进行实验,并且改进了SVM-CF算法,在BDAM-SDF框架中采用改进的SVM-ACO-CF算法,取得了最优效果,使得后续阶段能够制定更加精确的战略决策,进而应用于军工机构的推荐系统。最终,从真实案例中证明大数据技术支撑战略决策具有广阔的前景和重要的战略意义。

在最终的战略决策制定中,基于数据分析阶段的有价值的军事信息,如随着推荐项目数N的增加,3种分类器的预测准确率值降低。因此,在战略决策建模中,可以设计和应用更好的机器学习算法,并且将进行更全面的分析,如考虑客户的社交关系和网络等。另一方面,尝试优化本文采用的SVM-ACO-CF算法,以提供较高的准确率。此外,还需要考虑尽可能保护客户方的隐私和偏好,如推荐客户偏好类型的军工产品的程度可以随时间减弱。

在战略决策模型分析中,将战略决策模型在推荐系统中进行应用,并且面向内部人员进行测试。然后,针对内部人员的反馈意见,修改战略决策模型。最终,在战略决策模型完善阶段,结合军工机构管理方的意见,进而制定战略决策,并且实际应用于推荐系统中。

猜你喜欢

战略决策军事行动军工
本期导读
军工文化的内涵与外延分析
研发支出政策在军工科研企业的应用
浅析外军有限军事行动
世界五百强:中国军工风云榜
概率论在军事上的应用浅析
军工版“友谊的小船说翻就翻”
《活着:企业战略决策精髓》
企业“走出去”的财税支持政策研究