面向智能决策的军事数据工程建设
2020-06-08肖楚琬唐小峰
肖楚琬,刘 嘉,唐小峰
(海军航空大学,山东 烟台 264001)
随着人工智能技术的发展,智能军事决策由于其解决不确定和不完全性问题的天然优势,成为军事运筹领域的重点研究方向[1]。Alpha Star在“星际争霸II”中战胜人类职业玩家,显示了人工智能在军事决策领域的巨大潜力。美军在“深绿”计划研究的基础上,持续开展了空战模拟系统“Alpha AI”、虚拟指挥官参谋(CVS)等一系列智能项目研究,军事智能决策技术日益成熟,逐渐走向实战[2-4]。
数据是智能决策的基础。随着互联网技术的发展,云计算、大数据、数据挖掘等技术已逐步成熟,为军事数据工程建设打下了基础。但是,由于保密和专业性等要求,军事数据分散在各独立单元,尚难以达到大数据规模。其准确性、一致性、完整性差,横向不合,纵向不通等问题突出,很难满足军事智能决策需求。因此,亟须将现有军事数据资源整合,从体系架构、标准规范、服务管理等方面合理规划,建设能够支撑战略仿真、计划制定等智能决策需求的军事数据工程体系,为建设新一代“军事智脑”,打赢下一场智能战争打下基础。
1 军事智能决策
1.1 决策的一般模型
决策是人类意志的直接反映,传统决策方法一般来源于人的经验。本质上它是一个基于目标,对有限条件和方法进行分析评估的过程,通过对方案进行分析和论证,从而做出决策,并验证评估效果。
军事运筹学是决策的量化表达,一般包含决策者、决策目标、决策变量、环境变量(状态变量)、决策后果等要素。在一定环境变量条件下,选择特定的决策变量后,最终得到结果,实现决策目标。决策的一般描述可表示为
式中,d为决策变量,z为环境变量,Z为决策后果,U为评价变量[1]。由于变量之间的关联,特别是主客观因素之间的交互,给决策分析带来前所未有的困难。
1.2 军事智能决策
军事智能决策是智能决策在军事领域的具体实践,主要针对快速和综合信息处理等方面需求,为人脑提供辅助建议,应用于军事领域的各个层次,如战略决策、计划制定、指控设计等方面。它能够通过对历史数据、相似性数据等方面的学习,不断完善知识库,优化搜索路径,给出辅助策略建议。由于军事决策的对抗特性,军事智能决策学习过程主要是对手和自我经验总结的学习,需要大量的数据支撑,通常采用基于前馈贝叶斯网络与神经元网络的深层学习方法[5]。
2 军事数据工程及现状分析
2.1 数据工程和军事数据工程
20世纪80年代,美国电气及电子工程师学会(IEEE)将数据工程定义为“关于数据生产和数据使用的信息系统工程”[7]。从应用角度看,它是生产者将制造的规范、语义清晰数据提供给数据消费者使用的信息系统工程;从生命周期角度看,是强调对数据的定义、采集、标准化、存储、处理、运用和容灾备份等过程进行全寿命管理的信息系统工程。其主要内容包括数据建模、数据标准化、数据管理、数据应用和数据安全等。
参考数据工程定义,军事数据工程是针对军事需求,综合运用数据技术方法,对军事数据进行建设、管理和运用的军事信息系统工程。它主要包括军事数据需求捕获、标准化、管理、分析、产品、安全等内容。它将工程思维引入军事数据领域,在军事系统运行的特殊环境基础上,将系统所需履行的任务作为依据,用工程化手段解决军事系统建设有效性问题,为军事决策提供基础和支撑。
从生命周期角度来看,军事数据工程的重点在于明确数据需求、确保数据质量、挖掘数据知识、形成数据服务。
2.2 面临的主要困难
2.2.1 军事数据需求不成体系
目前军事需求分解缺乏顶层法规标准,军事需求传导过程和体系尚不健全,各个业务需求相对独立,各层次之间缺乏固有逻辑关系,导致军事需求分析零散、混乱,不成系统。数据需求来源于信息系统需求,并未形成针对军事数据的统一规划,导致军事数据出现要素不全、重复建设、关系混乱等问题,很难实现以军事需求牵引的数据工程建设。
2.2.2 军事数据采集不标准
当前,军事领域存在大量数据,由于缺乏规范、粒度不同、要素不全等,大多数无法被有效利用。军事数据约束不严,缺乏完备的元数据和数据元标准,数据要素之间并未形成严格的逻辑关系,缺乏数据质量校验工具,特别是需要手动录入的数据,准确性差,给处理带来困难。各类数据分散在各个业务部门,状态零碎分散,一致性差。同一事物或同一事件存在众多不同的数据,造成大量资源浪费。数据管理水平较低,还存在各有关部门各自为战、各行其是的情况,缺乏集中统一的汇总渠道和管理体制。
2.2.3 知识挖掘不充分
数据人员和专业人员沟通渠道不畅,数据技术和专业知识结合不紧密,没有形成聚合效应。大多数专业数据资源闲置,并未固化成专业知识库。已有知识库缺乏更新机制和手段,更新频率低。跨专业数据资源之间融合差,大样本网络建设不健全,机器学习、人工智能等数据挖掘技术应用不充分,没有形成明确的跨领域知识库,对作战和训练任务支撑效果不明显,在进行重大决策和处置紧急情况时,很难拿出公认的可信知识支撑。
2.2.4 数据服务不系统
数据服务停留在独立业务系统层面,以单一对象为主,并未形成层次化、系统化服务。服务通用性不强,针对作战、训练、管理等不同层次的需求,难以提供标准的服务接口,大量重复建设造成了资源浪费,在执行作战筹划、训练演练等任务规划时,仍以传统决策形式为主,数据的辅助决策服务核心功能效果不明显,严重制约了决策效率提升。
3 面向智能决策的军事数据工程建设
3.1 总体设计
军事智能的应用需求非常丰富,从战略设计、战役指挥等顶层谋划,到器材采购、飞行计划等具体任务,对数据的内容、颗粒度、计算速度等需求各不相同。因此,需要将军事数据作为独立的研究对象,使其不仅仅依附于单一业务系统,能够在相关数据融合的基础上实现相关性比对、多维度描述、基础知识储备等功能,最终能够为各类型、各层次的智能决策需求提供通用或专业的数据服务。因此,军事数据工程建设应该充分考虑标准化、通用化、可扩展性等原则,兼顾结构和非结构化数据,按照系统工程要求进行整体设计。
本文按照“兼容开放、结构扁平”的思路,设计由需求层、数据层、知识层、服务层、应用层和评估反馈机制构成的军事数据工程整体结构如图1所示。
3.2 主要建设内容
3.2.1 军事数据需求层建设
军事智能决策需求捕获是数据工程的基本出发点。美军以国家和国防战略为顶层需求,依次形成战略需求、作战需求、能力需求、资源需求等四类需求。其中,军事数据由顶层需求分解而来,属于资源和能力需求。军事数据需求描述模型整体框架如图2所示。
图1 面向智能决策的军事数据工程总体建设框图
图2 军事数据工程需求描述模型
这就需要进一步规范军事需求分解和传递规则,从顶向下构建一套军事决策需求分析标准,明确需求模型和数据资源的形式化描述。依据此标准,领域专家可以根据不同领域需求,建立各领域军事数据资源术语之间的逻辑关系,形成军事数据资源概念术语集,从而建立军事需求和军事数据之间的“翻译器”。在具体军事需求开发时,不同人员可以从数据和需求两方面对需求和资源进行分析,最大限度地合并“同类项”,增加“标准项”,实现军事需求和数据资源的对接。
3.2.2 军事数据层建设
军事数据层是军事数据工程的核心内容,包括基础数据、专业数据以及数据管理策略三个部分,通过数据融合建立动态关联。基础数据主要是通过各种手段收集的原始数据,按照各领域分类存放在业务服务器中;专业数据是在基础数据基础上,针对某专业需求提前融合的数据集合。
针对各类数据种类多、格式不一致等现状,需要进一步完善军事元数据标准。面向不同决策应用需求,区分不同类型、层次等给出基本要素集,确定数据谱系信息,为数据采集和融合提供基本遵循。在技术层面,开展军事数据融合和数据质量研究,开发清洗工具,综合应用智能语义、模糊识别等技术,建立数据质量评估模型,保证数据源头准确,实现数据之间的互通互享。在管理制度上,以军事需求变更管理为主线,建立各层级管理部门和相应制度,打通管理链路,使军事数据的采集、分析、增容、安全等各个方面都有章可循,形成军事数据工程一盘棋态势。
3.2.3 军事数据知识层建设
军事知识挖掘和固化决定了智能决策的搜索范围、速度和准确度等关键要素,是数据决策服务的核心。它通过研究综合运用机器学习、人工智能、语义识别等数据分析技术,建立跨类别、跨领域数据的内在联系,实现知识的抽取和固化,建立军事服务的基础。在这一过程中,区分建设专业知识库和通用挖掘模型。专业知识库以固定的知识模型为主,可以快速服务决策;通用挖掘模型可以针对临时产生的需求,通过预先学习形成的方法集合,快速组织形成相应知识。在实现形式上,重点是从集中式向分布式发展,按照专业领域打通各类型数据之间的壁垒。
3.2.4 军事数据服务层建设
军事决策服务是军事数据工程的最终价值体现。其特点在于建立了独立的服务层,为各类决策应用提供支撑,实现资源建设共享。它以数据顶层规划法规为约束,通过建立涵盖基础级、中继级、系统级的数据服务体系,形成快速响应、灵活配置、融合交互的军事数据服务,支撑各类决策应用。其基本结构如图3所示。
图3 军事数据工程服务体系框图
3.2.5 军事数据应用层建设
军事数据应用是军事数据效果最直接的体现。它在统一的军事数据服务体系上,通过不同领域数据资源的灵活调用,和同一数据资源的不同数据属性融合计算,开发智能决心、智能规划、智能评估等各类智能决策应用系统,实现不同层级、不同领域的军事智能决策功能。
3.2.6 军事数据评估反馈机制
评估反馈是军事数据工程的改进动力。随着国防和战略需求的变化,以及军事智能技术的不断发展,必须建立动态评估反馈和更新机制,编制数据服务应用的评估准则,以服务是否满足需求为评判标准,分析数据服务存在的问题,重新检视需求、采集、挖掘等过程,对数据工程各要素提出改进要求。
3.3 重点关注问题
3.3.1 元数据技术和管理
大多数军事数据存放在各自独立的系统中,彼此之间缺乏结构性关联约束,因此,需要从技术和管理两方面对军事元数据进行研究。在元数据设计技术方面,根据决策的类型、层次等特点,研究元数据放置策略、存储规则、缓存技术等涉及数据读取速率、访问规则的数据技术;在元数据分配技术方面,在传统目录树、哈希等方法基础上,重点研究流计算引擎、MPP数据库、Apache Hadoop等新型数据库[8]的元数据分配技术完成对结构/非结构化数据的全覆盖标注,保证较高的并行度和响应时间。在元数据分析方面,统筹业务元数据和技术元数据,持续研究重点元数据结构变化对数据查找效率变化影响,确定重点特征进行监控。
在管理方面,可以参考美军建立的国防部元数据注册库(MDR)机制[9],建立国家层面军事元数据标准,通过注册、申请机制保证各类数据之间的融合,大大提高元数据信息资源在军事决策信息系统中的重用程度。
3.3.2 数据质量管理
针对军事数据,特别是人工填报的军事数据规范性不强,一致性不好的实际,需要加强数据关联、约束、溯源、清洗等技术研究。通过对象识别、冗余相关分析、重复检测、表象消歧义等方法[10-12],建立相似度量函数,找出不一致、冗余和不完整等数据错误;通过研究建立不同数据元素之间数据依赖程度模型,如内置谓词函数依赖、连接依赖、多值依赖等,找出数据约束,确保数据的完整性和一致性[13]。为了更好地管控数据质量,需要寻找低质量数据谱系和传播路径,从而及时有效地控制问题数据传播。
3.3.3 小样本数据特征提取技术
军事行动的有限性决定了获取大样本军事数据的难度很大。因此,在有限样本中快速得到有效的数据特征对于智能决策十分关键。一般来说,特征提取的目的是对初始高维特征进行有效降维,从高维特征空间中选择一个最优特征子集[14]。但是,对高维特征空间的降维计算十分复杂,从最优特征子集的产生过程来看,可将特征提取方法分为Filter过滤式和Wrapper封装式两大类[15]。Filter过滤式方法相对高效,具有相对独立性,根据评估函数不同,可以分为距离测度、信息测度、一致性测度、相关性测度四类。同时应注意到,目前在作战等军事实践领域,真实数据获取十分困难[16],应该注意在小样本数据获取的基础上,通过模拟仿真方法,对可能存在的状态空间进行仿真计算,以提高决策的准确性。
3.3.4 模块化数据服务框架
军事智能决策需求兼具通用性和专业性特点,应建立动态和静态相结合的数据服务体系。静态服务主要是收集固定的数据服务需求,如基础级的数据统计、检索等,面向固定的决策应用需求提供通用服务,从而实现快速高效响应。动态服务主要是针对实时计算要求高、需求变化快的决策需求,通过基础决策模型库,采取预先计算、存储等方式,提供动态服务。同时,要建立服务的动态响应和调用机制,从基础服务起步,不断补充和完善服务资源,最终形成彼此独立又相互关联的模块化数据服务体系。
4 结束语
未来战争必然是“人脑+智脑”的联合,是军事智能体之间的对抗。在人工智能技术不断发展,军事数据尚达不到大数据规模的情况下,军事数据工程是实现军事智能决策的基础。本文从军事智能决策的需求出发,构建了涵盖数据层、知识层、服务层的数据工程体系,指出了需要重点关注的问题,为建设独立的军事数据工程体系提供了借鉴,为未来军用智能决策拓展和应用打下了基础。