数据挖掘技术在合成旅装备保障能力评估中的应用
2023-02-19张耀龙阮拥军李元勋
张耀龙,阮拥军,李元勋,黄 燕,刘 彬
(1.陆军工程大学石家庄校区,河北 石家庄 050003;2.中国人民解放军32316部队,新疆 乌鲁木齐 830000)
随着 “装备云”“器材云系统”“战术车辆装备保障信息系统”等的建设发展并逐步落地见效,陆军合成旅装备保障信息化、智能化水平实现了跨越式发展。上述系统涉及的装备信息库、数据库中存储着大量详实具体、时效性强的数据,涉及装备动用、维修保障、器材供应、人员动态等众多方面,合理有效地利用这些数据信息能够极大提高装备保障决策的科学性、效益性。
装备保障能力评估作为装备保障建设的重要环节,评估质量的高低直接关系装备保障建设、训练的效果,对各级决策亦具有重要影响。评估中,需要使用装备保障全流程、全领域、全要素的数据,数据种类繁多,体量庞大,科学分析、处理并合理利用数据,对整个评估工作起关键性作用。这些海量的数据具有多源异构,价值密度低,噪声干扰多,关联性模糊等特点,如何从中提取具有应用价值的信息,成为评估中数据处理的关键问题。能够全面利用和高效处理数据的数据挖掘技术是解决这一问题的有效手段。应用数据挖掘技术进行评估数据信息分析处理,可以帮助评估人员快速高效地获取有价值的评估数据信息,及时进行数据分析处理,得出科学合理的评估结果。
1 合成旅装备保障能力评估数据特征分析[1]
1.1 数据体量庞杂,需要规范处理
一方面,合成旅装备保障能力评估指标体系层次多,指标之间相互关系复杂,各指标支撑数据相互交叉,形成了海量的评估基础数据。另一方面,评估基础数据中包括以序列属性形式表示的定性数据和以数值属性形式表示的定量数据。定性数据一般为主观数据,由于指标性质存在差异,导致其序列数据量纲不同;定量数据一般为客观数据,由于数据衡量标准不同,量纲也不一致。以上问题给数据的处理、应用造成了一定困难,因此,需要对原始数据进行规范处理。
1.2 数据噪声干扰,应予净化清理
合成旅装备保障能力评估数据通常以人工表格记录、音视频录制以及信息系统提取等形式进行采集。由于采集记录人员能力水平、专业素养及责任意识等存在差异,导致数据质量参差不齐,存在不同程度的数据残缺、数据错误、数据重复和数据冲突等情况。同时,通过系统采集的数据也存在冗余、误差、异常及不兼容等情况,将严重影响整个评估工作的实效性和准确性,因此,需要通过技术手段对采集的数据进行净化清理。
1.3 数据关联模糊,亟待挖掘明晰
合成旅装备保障能力评估数据涉及装备指挥控制、维修保障、供应保障、战场管理以及态势感知等多个方面,各级各类指标繁多,所需支撑数据海量,且数据交叉并行于装备保障全流程之中,数据之间、数据与指标之间的关系均存在一定的模糊性。对数据进行提取归类、聚类分析、关联规则挖掘,发掘其背后的关联关系,从不同维度探究数据之间的规律特性,才能提高数据质量,保证评估模型应用过程的顺利实施。
2 合成旅装备保障能力评估数据挖掘体系架构[2]
2.1 数据获取
数据获取的过程通常包括明确数据获取途径、数据采集、数据存储及数据校验4个步骤,如图1所示。根据合成旅装备保障能力评估指标要求,评估数据包括保障系统要素数据、保障系统单项保障能力数据、保障系统综合保障能力数据、保障系统运行能力数据等。在具体的评估过程中,还需要较为完备的现有装备实体数据、态势感知支持数据、综合保障能力数据、保障力量编成数据、保障筹划数据、保障力量部署数据以及保障行动实时动态数据等多种数据[3]。
图1 合成旅装备保障能力评估数据获取过程
在合成旅装备保障能力评估实践中,数据获取的主要途径有填报数据采集表格、便携式数据采集终端、地面云台和空中机动等[4]。但是,随着装备信息化建设的发展,从“装备云”、指挥控制系统等大数据系统中提取数据,充分发掘信息化、智能化装备内存数据信息,合理利用装备保障数据监测系统,达到评估信息数据采集涵盖全领域、全要素,才能确保评估信息数据的客观性、准确性、融合性。
2.2 数据预处理
对装备保障能力的精准评估,应建立在对装备保障能力评估数据的精确分析基础之上。原始评估数据中存在的冗余、噪声、缺失等问题,会直接影响数据挖掘和评估模型的应用效果。因此,在进行数据挖掘和评估模型应用前,要根据评估数据特性,利用现有的数据清洗、数据集成、数据归约和数据变换等技术对评估数据进行预处理[5],从而有效提升装备保障能力评估数据的质量,提高数据挖掘和评估模型的应用效率。装备保障能力评估数据预处理流程如图2所示。
图2 装备保障能力评估数据预处理流程
1)数据清洗。通过多种途径采集的评估信息数据,通常存在残缺、错误、重复以及冲突等问题,因此,在对其进行分析、挖掘前,需要对其进行清洗,从而为数据分析和评估模型的构建做好数据准备。数据清洗包括缺失数据清洗、噪声数据清洗、离群数据清洗、不一致数据清洗等[6]。
2)数据集成。经过清洗的数据,由于其来源、性质及表现形式的不同,需要对其进行数学或逻辑上的有机集成,合并后将其存放在预置的数据库中,为数据挖掘应用做好准备。数据集成的方式包括异源数据集成、异构数据集成以及异质数据集成等[7]。
3)数据归约。装备保障能力评估基础数据海量庞杂,对其进行分析和挖掘将会消耗大量时间,且效果一般。利用数据归约技术,可以在保持数据原貌基础上,最大限度地精简数据集,从而提高数据挖掘效率。数据归约的方式包括维度归约、数值归约、概念分层、数据抽样等[8]。
4)数据变换。经过归约后的装备保障能力评估数据,结构化、半结构化以及非结构化数据形式并存[9],需要通过规范化或属性构造等方法,将其转变为便于挖掘和评估的数据格式,即数据变换。数据变换的方式包括平移变换、对数变换、方根变换、加权变换等。
2.3 数据挖掘过程模型
根据合成旅装备保障能力评估工作实践成果,结合现有数据挖掘理论,可以构建出合成旅装备保障能力评估中数据挖掘的过程模型,具体如图3所示。
该模型中,合成旅装备保障能力评估数据按照由“数据”到“信息”到“调用”的层次进行提取。其中,“数据”是指从数据源获取及进行针对性预处理的过程;“信息”是指根据评估模型要求,运用算法进行数据挖掘并获得有价值评估信息的过程;“调用”是指根据评估模型,从评估应用数据库中调用相关数据,实现数据应用的过程。
由图3可知,评估数据采集完成后,得到评估所需的原始数据,并存储到数据库中。原始数据经过预处理后,运用评估方案中选定的模型算法和数据挖掘算法对其进行挖掘,生成目标信息数据集,并存入评估应用数据库,数据进入待调用状态。最后,评估人员根据模型需要调取相关数据进行应用,生成合成旅装备保障能力评估数据结果。整个数据挖掘流程中形成三次数据存储,分别是评估原始数据存储、预处理后数据存储以及挖掘后应用数据存储,分别对应数据采集、挖掘、应用三个阶段,便于对数据的校对、核验。
3 合成旅装备保障能力评估数据挖掘关键技术
当前数据挖掘方法主要有回归、分类、聚类、关联规则、预测和离群点检测等六类[10]。常用的算法包括线性回归、BP神经网络方法、决策树方法、贝叶斯分类、支持向量机、层次聚类、高斯聚类、Apriori算法、FP-Growth算法、灰色预测、马尔科夫预测、集成学习等。将这些算法模型融入装备保障能力评估数据挖掘中,并确保算法与数据的兼容性,才能实现数据挖掘对装备保障能力评估工作的应用价值。根据合成旅装备保障能力评估数据特点,本节简要介绍贝叶斯分类方法、层次聚类分析以及改进Apriori算法在评估数据挖掘中的基本应用。
3.1 贝叶斯分类方法[11]
贝叶斯分类方法是分类分析常用算法,适用于数据量较大且对准确率要求较高的数据挖掘过程。该方法应用到合成旅装备保障能力评估数据挖掘中,主要是对预处理后的应用数据进行分类。其具体应用步骤:首先,根据数据属性建立n个评估数据矩阵,并进行规格化约束;其次,计算各矩阵的特征方程的特征根;再次,对影响装备保障能力的主要因素进行提取,通过加权贝叶斯分类算法选取一定数量的装备保障能力评估数据作为训练样本,对挖掘模型进行训练,挖掘出训练样本数据之间的内部关系作为分类器;最后,利用挖掘出的分类器,实现对装备保障能力评估应用数据的分类。
3.2 层次聚类分析[12]
3.3 改进Apriori算法[14]
Apriori算法是关联规则分析的重要算法,其特点是逻辑结构简单,运行硬件环境要求较低。对合成旅装备保障能力评估数据进行关联规则分析,主要目的是发现评估数据集之间的关联性,为评估模型应用做好数据准备。由于合成旅装备保障能力评估数据结构多元,数据量较大,传统的Apriori算法运行速度及效率无法满足相关需求。运用其改进算法MCMApriori可有效克服传统算法的不足,大幅提高数据挖掘效率。其具体应用步骤:首先,将采集的评估基础数据导入Hadoop的Hive中进行数据清洗,将有价值的数据筛选出来[15];其次,通过HDFS分布式文件系统,将数据传递至不同Map节点[16];再次,根据评估模型方法需要,预先设置最小支持度和置信度阈值,再采用MCMApriori算法进行数据挖掘,提取装备保障能力评估数据中隐藏的关联规则,有针对性地选取重要评估指标,为评估人员提供决策支持,提高装备保障能力评估的效率以及分析结果的科学性。
4 结束语
为提高合成旅装备保障能力评估数据处理效益,本文分析了其评估数据的特征,构建了评估数据挖掘框架体系,介绍了三种数据挖掘应用的关键技术,初步理顺了合成旅装备保障能力评估数据挖掘技术应用流程,后续还需结合评估工作实际,对相关技术的具体运用进行深入研究。