基于网络环境的应急指挥数据集成与挖掘研究
2011-01-16秦卫江
秦卫江
(中国科学院 研究生院,北京100080)
1 引言
自然灾害是指发生在生态系统中的自然过程,它可以导致社会经济系统失衡,使社会财产产生损失,导致社会资源出现严重的供需不平衡[1]。大型自然灾害具有突发性、损害大的特点,大型自然灾害的抢险救援具有时间紧迫、易受自然物资条件约束、社会舆论关注度高特点。因此,当大型自然灾害发生时,就需要军队等对灾区进行资源的紧急调度与分配。为实现应急指挥,需要将相关区域内的救灾物资、避难设施、道路通讯等数据一同集成至数据库,以供决策和指挥者直接查看以及物资调度问题。
2 应急指挥数据库设计
在应急指挥过程中,信息和数据作用巨大,可以提供给决策者直接参考,也可进行事后数据分析。同时,应急指挥基础数据库也是各级部门开展工作的基础,是应急指挥的基本保障。不论是应急指挥还是作战指挥,从数据层面来看没有本质的区别,从数据获取方式来看,都是基于网络的开放性;从数据对决策的影响看,城市应急更多的是基于平时可获取数据的积累和更新,作战指挥除了与其相同的共性外,对由不同对手在不同环境下所带来的、与具体作战行动联系紧密的未知数据的获取,以及主要由战场的变动性和不确定性所带来的属性数据的高刷新率,有特殊的要求。在网络环境下,正是利用其开放性、连通性、快捷性才可能形成对决策的支撑,将分布在不同地域、不同领域的数据按照应急指挥需求处理后,形成决策优势。
美国军方利用先进的分布式网络技术,各相关部门分别管理、更新各自领域的数据库,利用网络开放性和超级用户特权可以随时查询和调阅相关数据,可以避免数据库重复建设,数据可以在各部门得到及时更新,随着分布式网络结构的扩大,数据类型和数据量也会逐渐扩大。日本的应急指挥数据库内容包括地理数据、地址数据、生命线数据、避难场所信息、道路数据、作战物资仓库信息等多种专项数据[2]。同发达国家相比,我国应急指挥数据库的建设还处于起步阶段,在数据量、数据来源、数据应用、数据分布结构等多方面与其有着较大的差距,特别是在数据的获取、建设资金等方面存在较大的困难。虽然作战的数字化与信息化建设已经有了较为长足的发展,但现在各部门仍然没有建成统一的管理平台和数据存储标准,各地的数据存储有着不同的规范,一些资料仍以纸质形式存在[3]。
根据应急指挥的特点,信息与数据应包含五类:一是地图类数据,包括基础地理图,基础地貌图,行政区划图,县市全图,大型企业和工厂、矿山图等;二是社会经济统计类数据,应包括部队行动区域的人口、房屋、经济统计数据,各村镇的村县资料,各地少数民族数据,贫困地区分布数据,风俗习惯等,数据库以自然村或行政村为统计单元;三是应急指挥的类别资料类,包括各类应急指挥的特征属性、典型案例、应急预案、作战知识、决策信息等数据;四是作战力量类,包括作战参与人员的级别装备和详细信息、国家与地方的各类救援队、军队与武警部队、消防力量、医疗救护力量、物资储备中心的分布、数量、构成等数据;五是紧急联动联络类,包括应急指挥过程中的管理部门、各作战部队、各级政府及有关职能部门的联络数据。
应急指挥所需的数据来源包括:一是负责各种应急指挥专属系统的既有数据,如各级指战员详细信息数据、军事演习经验数据等。二是各级政府的数据,包括政府各部门联络数据、各地经济和人口状况、村镇地图、应急预案、物资储备、重要目标、救灾队伍、生命线工程资料等。三是相关部门和单位所持有的数据,如电子地图、基础地理地貌电子版图、水库资料、气象资料、桥梁隧道资料等。四是网络渠道等部分公开发布的数据。五是对于应急指挥的无即成数据来源的数据项,进行有针对性的侦察、调查和分析处理后得到的数据。
根据上述分析,应急指挥数据库分为三个子库:作战类型、作战调度、作战辅助。
作战类型库首先需要记录作战本身的信息,包括:编号、作战类别、作战名称、作战时间、作战地点(经度、纬度)、作战等级、一级类型、二级类型、三级类型、预案编号、案例编号、医疗单位编号、消防单位编号、公安单位编号、交管单位编号、安监部门编号、救援物资库编号、专业救援队编号、作战部门与人员编号、作战状态、报警电话、作战命令时间、接报人、作战描述等,作战类型表与作战调度中的作战队伍、物资信息、预案信息、典型案例等表都有关联。
作战调度库包括各种参与队伍及物资信息和预案及典型案例。参与队伍包括:作战部门与人员、医疗单位信息、消防单位信息、公安部门信息、交管部门信息、安监部门信息、专业救援队信息和作战物资信息等。其中作战部门与人员、医疗单位信息、消防单位信息、公安部门信息、交管部门信息、安监部门信息分别存储了编号、单位名称、地址、联系人、手机、电话、传真、空间定位、所属区域、专用运输工具种类和数量、作战人员数量等基本信息。专业救援队伍信息存储了编号、队伍名称、类别、队伍规模、主管部门、部署地点、联系人、手机、电话、传真、队伍职责等信息,同时还要与专门的军队数据库进行关联。作战物资信息存储了编号、类别、储备库、名称、主管单位、储备物品、储备规模、储备地点、联系人、手机、电话、传真等信息。预案内容包括:编号、预案名称、预案等级、制定时间、制定人、制定单位、是否为总体预案、适用范围、一级类型、二级类型、三级类型、受灾面积、死亡人数、受伤人数、作战队伍、战备物资、作战方案等。典型案例内容包括:编号、案例名称、发生时间、编写人、编写单位、采用预案名称、采用预案编号、一级类型、二级类型、三级类型、死亡人数、受伤人数、作战队伍、战备物资、作战方案、作战总结等。预案与典型案例中用一个表将两表关联起来,方便同时查找。
作战辅助库包括军事专家信息、危险品、大型危险源等数据表。
3 应急指挥数据集成与分析
网络环境下的应急指挥系统可以将各级部门的数据库管理系统(DBMS)、管理信息系统(MIS)、办公自动化(OA)数据集成起来,集成异构数据可以把各部门内部及外部的各种相关数据资源整合,为信息资源规划提供了可能。微软的SQL Server 2010中的数据整合服务(Integration Services,SSIS)提供了一系列支持业务应用程序开发的内置任务、容器、转换和数据适配器。我们采用SSIS进行了二次开发,将数据加载到平面文件、原始文件和关系数据库时所用的目标,填充数据仓库和数据集市,实现了清除数据和数据标准化任务,将商业智能置入数据转换过程,使管理功能和数据加载自动化[4]。
应急指挥数据来源不一致,需要对数据进行抽取转换装载(ETL)[5]。实现异构数据源的迁移,需要三个步骤:①设计源表,建立目的表和字段映射关系;②确定数据库字段的计算法则;③实现数据流任务设计。建立源到目标库的映射规则,包括映射关系和运算法则。根据应急指挥的特点,映射关系采用表映射的多对一映射和字段映射的外键映射,运算法则采用了字段类型转换、拆分、合并等技术。因为应急指挥的基础数据的来源有不确定性,源数据所在的数据管理系统也不太固定,因此还需要对不同的系统分别建立连接。连接管理器采用了ODBC、ADO.Net、平面文件等多种形式的数据源,实现了各种系统数据交互的需要。平面文件主要针对没有存储在数据库中的各种文档,但需要具备一定固定的格式,可在平面文件数据源的设置中设置分隔符、列标、行标等。
应急指挥数据ETL工具的工作流程如下:①在网络环境下获取源数据表,通过填写源服务器的IP和数据库名,可以连接到该服务器的数据库,然后选择需要数据迁移的表名。②选择目标数据表,同样通过填写目标服务器的IP和数据库名,连接到该服务器的数据库,然后选择数据迁移的目标表名。③进行列对应。列对应的目的在于解决不同系统中的数据异构问题。首先模块会获取目标数据表的数据类型,然后根据用户所做的列对应,将源数据表中的数据类型进行转换,抛弃源数据表中的数据类型。④生成可运行和部署的包文件。
应急指挥基础数据除为作战管理平台做数据基础以供决策人员浏览查询之外,还可以作为数据分析的基础,如数据的联机在线分析(OLAP)和数据挖掘。SQL Server 2010提供了数据分析服务(SSAS)工具,在应急指挥OLAP立方体设计中,我们建立了时间维度、地理维度、作战类型、伤亡分析、战备物资分析等五个维度,建立了应急指挥系统的人员配备分析、作战效果分析、作战环境分析等多个立方体,并可以根据实际的情况进行自定义立方体分析所需主题和维度。
4 应急指挥数据挖掘模型
决策树算法[6]是一个重要的数据挖掘分类模型,在应急指挥案例推理中有重要作用,但样本数据的丰富程度对于决策树的构建起着很大的影响,在树的叶结点上如果没有对应的实际案例,会造成系统的经验不足,在案例检索与匹配中可能会出现找不到合适案例的情况。因此一方面应构建丰富的案例库,另一方面仍需考虑保留人工分层检索预案的方法。决策树是一种类似于流程图的树结构,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同的属性值从节点向下分支,叶节点是要学习划分的类。从根到叶节点的一条路径就对应着一条合取规则,整个决策树对应着一组析取表达式的规则。
下面利用决策树算法来说明一个寻找作战匹配案例的过程。
(1)案例的组织与存储。案例以四元组的形式存储,其描述信息是一个非空有限集合。对于不同的典型案例,使用的预警级别是不同的,对应的预案也有所不同。对于预案响应级别有重要影响的属性有作战级别、死亡人数、作战区域人口密集程度、经济损失等,将这些作为作战案例样本的考察属性。
(2)数据转化与计算。为了方便分类,要将数据进行转化。根据作战级别划分为四类,特大、较大、大、普通;死亡人数是以数字计算的,要将数字概化为四类:众多、较多、多、少;人口密集程度按照地理分隔线分为高、低两类;经济损失分为高、中、低三类;使用预案分为I级,II级,III级和IV级。计算时,可将样本按照预案编号分成四类,然后根据决策树算法公式计算作战级别、死亡人数、作战区域人口密集程度、经济损失,将最大值设为决策树根节点,然后递归计算可得最终决策树。
(3)案例检索与匹配。构造决策树的过程实际上是建立索引的过程,比较与分层选择,它可以遍历所有的案例,具有较大的完善性。
应急指挥过程中存在着不同于随机信息和模糊信息的另一种不确定性信息,它的不确定性主要是由于决策者对事物认识不清,造成纯主观认识的不确定性,称之为“未确知信息”。在选取应急指挥物资调度网络系统路径中的最小风险路径时,经验值有时未必是精准值。在现实作战过程中,行军道路可能有各式的障碍。而专家组可以根据专业的知识和相关的历史经验来对时间进行估计,不同的专家也存在不同的可信度。因此将专家的经验用未确知数表示,来获取路径的期望值。
在应急指挥网络系统中,通常会规定一个限制期。现在将该网络抽象为赋权图,对每一条边,有一个经验的权值。现有多名专家,分别对该边有不同的评价,且多名专家因认识上的局限性,可信度亦有不同。我们采用未确知数理论构建了未确知优化数学模型,对专家组意见对可信度进行了修正。实践结果表明模型具有较好的应急指挥决策辅助支持作用。
5 结束语
针对作战决策需要,构建了村镇网络环境下的应急指挥系统的基础数据体系,并通过网络技术实现了多源异构数据集成,进行了ETL工具研发和OLAP分析实现。将数据挖掘模型与算法(决策树与不确定优化理论)应用于应急指挥决策分析,可以实现决策的科学化和智能化,面对应急指挥中可能出现的不确定因素,系统可以自动地进行调整战略实现智能决策支持。
进一步的研究将基于本体论和云计算理论,研究与开发网络环境下的“智慧”作战决策系统,实现无线传感与人工智能的有机结合,为精准化军队作战奠定基础。
1 李家祥.编队综合集成应急指挥系统及在搜索潜艇中应用的研究[D].大连:大连理工大学,2005.
2 田辉.基于OLE DB技术的异构数据集成研究[D].天津:河北工业大学,2005.
3 陈继东.异构数据源集成及转换方法研究与实现[D].四川:西南石油学院,2003.
4 BRIAN KNIGHT,ERIK VEERMAN.Expert SQL Server 2005 Integration Services[M].北京:清华大学出版社,2008.
5 付毅峰,程启月.一种新型的应急指挥流程效能评估模型[J].计算机工程与应用,2007,17(2):221-222.
6 JIAWEI HAN,MICHELINE KAMBER.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
7 高东广,李志新.从战略层次到战役战术层次各国兵家竞相诠释应急指挥新理念[N].解放军报,2006-12-5(6).
8 赵俊华,文福拴,薛禹胜,等.云计算:构建未来电力系统的核心计算平台[J].电力系统自动化,2010(15):22-23.
9 周相兵.本体应用综述[J].广西科学院学报,2010(11):12-13.
10 曹丹.森林防火辅助决策系统设计研究[J].电脑知识与技术,2009,5(5):3426-3427.
11 覃先林,张子辉,易浩若.森林火灾数据整合及共享方法研究[J].西北农林科技大学学报(自然科学版),2007,35(6):46-50.
12 秦卫江.情报信息系统结构及数据流程与挖掘研究[J].军事运筹与系统工程,2010,24(2):67-70.