APP下载

基于关联规则的作战数据挖掘*

2013-08-10常树宝

舰船电子工程 2013年7期
关键词:项集置信度连队

冯 涛 常树宝 任 煜

(1.陆军军官学院研究生队 合肥 230031)(2.68310部队 西安 710600)(3.68305部队 兰州 730305)

1 引言

当前基层作战部队普遍积累了大量的作战数据,但对这些数据的处理还停留在简单的备份、查询及统计阶段,从而使得这些数据还不能被充分利用。如何利用这些海量数据理性地分析各方面因素的成效得失,充分发挥数据潜在的作用,是指挥决策者共同关心的问题。比如,在部队机动组织输送装载过程中,提供相关铁路、空中、水路输送标准数据,优化装载方案,确保输送途中安全可靠;在部队行军过程中,提供相关道路、桥梁、隧道以及沿途的兵要地志信息,优化路线,提高机动能力;在作战过程中,提供敌我识别数据,有效避免误伤事故的发生等。

2 作战数据挖掘

2.1 作战数据

目前,作战数据还没有一个统一的定义。通常认为,作战数据是数据的一种。从广义理解,作战数据是指对作战指挥、日常战备、非战争军事行动等具有影响和制约作用,且可以用人工方式或者用自动化装置进行通信、翻译转换和加工处理的各种数据。从狭义理解,作战数据是用于保障作战指挥和部队重要行动顺利进行的各种数据。作战数据主要包括基础属性数据、动态情况数据和决策意图数据,具有确定性、动态性、实时性、权威性等基本特征。作战数据的建设应坚持源于作战,服务于作战的原则[1]。

2.2 数据挖掘

数据挖掘是人们多年来对数据库技术进行大量研究和开发的成果,在20世纪80年代末有了很大的发展。数据挖掘是指从数据仓库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的过程。它的目标是将大容量数据转化为有用的知识和信息。数据挖掘不但可以帮助人们从数据库特别是数据仓库的相关数据中提取出所感兴趣的知识、规律或更高层次的信息,而且也可以帮助人们从不同程度上去分析它们,从而可以有效地利用数据;它不仅可以用于描述过去数据的发展过程,而且还能进一步预测未来的发展趋势[2]。

一般来说,在信息网络和各类数据库中,其大量数据的背后往往都隐藏着很多具有决策意义的信息。通过对大量数据的分析,发现数据之间的潜在联系,为人们提供决策支持,这便是数据挖掘最基本的任务[3]。

3 关联规则

3.1 基本概念

关联规则是数据挖掘诸多功能中的一种,也是目前最为重要和应用最广泛的数据挖掘方法之一。设Iim}是m个不同项目的集合,其中的元素称为项(Item)。记D为交易(Transaction)T的集合,这里交易T是项的集合,并且。对应每一个交易有唯一的标识,如交易号,记作TID。一个关联规则是形如X=>Y的蕴涵式,这里⊂I,并且XY=Ø。X称为规则的前提,Y是结果。规则X=>Y在交易数据库D中的支持度(Support)是交易集中包含X和Y的交易数与所有交易数之比,记为Support(X=>Y),即Support(X=>Y)={T:X∪Y⊆T,TD}/|D|。规则X=>Y在交易集中的置信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比。

给定一个交易集D,挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度(Minsup)和最小置信度(Minconf)的关联规则,称为强规则。关联规则挖掘的任务就是要挖掘出数据库D中所有的强规则。强规则X=>Y对应的项目集(X∪Y)必定是频集,频集(X∪Y)导出的关联规则X=>Y的置信度可以用频集X和(X∪Y)的支持度计算。因此,可以把关联规则挖掘划分为以下两个子问题:

1)根据最小支持度找出数据集D中的所有频集;

2)根据频繁项目集和最小置信度产生关联规则。

3.2 Apriori算法

在目前的许多串行算法中,以Agrawal R.等人提出的Apriori算法最为著名,其他大多数算法也是以Apriori算法为核心的。这些算法的关键在于尽可能生成较小的候选项目集,它们都利用了这样一个基本性质:即一个频繁项目集的任一子集必定也是频繁项目集。

Apriori算法是通过项目集元素数目不断增长来逐步完成频繁项目集发现的。首先产生1-频繁项集L1,然后是2-频繁项集L2,直到不再能扩展频繁项集的元素数目而算法停止。在第k次循环中,过程先产生k-候选项集的集合Ck,然后通过扫描数据库生成支持度,并测试产生k-频繁项集LK。

Apriori算法主要包含以下三个步骤:

1)由频繁k-1项集通过自连接产生长度为k的候选k项集Ck;

2)对至少有一个非频繁子集的候选项进行剪枝;

3)扫描所有的事务来获得候选项集的支持度。

Apriori的基本算法:

L1={频繁1-项集};

for(k=2;Lk-1≠φ;k++) do begin

Ck=apriori_gen(Lk-1);

//产生新的候选项集

for all transactions T∈D do begin

CT=subset(Ck,T);

//事务T中包含的候选项集

for all candidates c∈CTdo

c.count++;

end

Lk={c∈CK|c.count≥min_sup}

end

answer=UKLk;

procedure apriori_gen(LK-1)

for each itemset l1∈LK-1

for each itemset l2∈Lk-1

c=l1∞l2//连接,产生候选项集

if has_infrequent_subset(c,Lk-1) then

delete c;

else{add c to Ck;

return Ck;

procedure has_infrequent_subset(c:candidate k-itemset;Lk-1:

frequent(k-1)_itemset)

for each(k-1)_subset s of c

if s∉Lk-1then

{return true};

return false;

4 应用实例分析

4.1 数据准备

本文以某单位军事训练数据为研究对象,利用12个连队2001~2011年间的实弹射击成绩,并抽取各连队的10项属性数据:指挥员是否具备集训经历,中士炮长数量,观炮通信成绩,测地准备成绩,阵地准备成绩,是否夜间射击,当年有否安全事故,试射方法,是否首发命中,效力射命中目标概率。原始数据如表1所示。

表1 原始数据表

4.2 数据处理

为了后面进行系统化分析与关联规则挖掘,我们将原始数据表的各项属性值按如下规则进行离散化处理,表2为处理后所得的数据表。

表2 挖掘用数据表

指挥员集训经历(A):Q1:有Q2:无

中士炮长(B)

测地准备(D

4.3 关联规则挖掘

运用Clementine挖掘软件,设定最小支持度为15%,最小置信度为80%,对120条记录进行关联规则的挖掘,得到部分强关联规则如表3所示。

表3 挖掘结果

表3中

1)规则1表明:测地准备成绩在及格范围且在夜间射击的连队有96.34%的概率首发不命中,且效力射命中目标概率小于30%。

调查:该部队夜间射击考核较少,连队不够重视;侦察兵夜间捕捉目标能力不足。

分析:加强夜训,确保夜训的时间和质量。

2)规则2表明:该年有安全事故的连队有100%的概率阵地准备处于合格水平。

调查:因不遵守操作规程导致的训练伤多发生在阵地,造成战斗力减员,士气低落。

分析:安全工作的重心放在阵地;军医跟随阵地;政治主官做好安全教育和思想工作。

3)规则3表明:指挥员有过集训经历,观炮通信良好,测地和阵地准备优秀的连队有90.73%的概率首发命中。

调查:符合炮兵指挥员的一般认识。

分析:让没有参加过集训的指挥员集训。

4)规则4表明:有三个中士炮长且观炮通信良好的连队有93.21%的概率阵地准备良好。

调查:不符合炮兵指挥员的一般认识,可视为无用规则排除。

分析:中士炮长的能力素质一般比下士炮长要强,但阵地准备与观炮通信关系不大。

综合以上分析,可得知挖掘出的强关联规则,有的能够反映出部队传统评估分析方法无法得到的潜在重要信息,可用于指导部队;也有的规则不能够反映真实的,有价值的信息,这就需要决策者根据已有知识和经验进行判断和筛选。该实例存在的最大问题是数据量不足,从而使挖掘出的关联规则存在一定的局限性。

5 结语

基于关联规则的作战数据挖掘以发现知识、获取有用信息,是一种有益尝试和重要应用。它对于部队开展的军事训练、政治工作、后勤保障、安全保卫等工作将会起到辅助性的决策支持作用,对决策者具有重要指导意义。此外,决策者应想用、敢用、会用作战数据挖掘成果,通过以建促用、以用促建,推进作战数据建用一体的良性循环。

[1]吴辉.数据挖掘技术的研究与应用[D].武汉:武汉理工大学,2009.

[2]陈乘风,何宇,赵伟.加强作战数据建设的思考[J].军队信息化建设,2012,(2):16-17.

[3]刘辉,陈宇.数据挖掘,信息战场“淘金术”[J].国防技术基础,2012,(5):29-30.

[4]王东.加快推进我军作战数据建设[J].军事学术,2012,(3):53-54.

[5]刘世平.数据挖掘技术及应用[M].北京:高等教育出版社,2010.

[6]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:科学出版社,2009.

[7]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2008.

[8]蒋晖,陈允锋.数据挖掘及其一种关联规则算法[J].计算机与数字工程,2011(6).

[9]王宇杰,乔聪.数据挖掘中基于负边界思想的关联规则增量式更新算法[J].计算机与数字工程,2010(6).

[10]袁玉波.数据挖掘与最优化技术及其应用[M].北京:科学出版社,2007.

猜你喜欢

项集置信度连队
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
硼铝复合材料硼含量置信度临界安全分析研究
连队文化创新对连队管理创新的影响探索
一二九团注重连队“两委”后备人才培养
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
不确定数据中的代表频繁项集近似挖掘
关于发展连队经济的思考