坦克兵力行为智能体模型研究

2016-08-18孙少斌韩志军冯亚斌

火力与指挥控制 2016年7期

关键词：兵力分队坦克

孙少斌，韩志军，冯亚斌

（装甲兵学院作战实验中心，安徽　蚌埠　233050）

坦克兵力行为智能体模型研究

孙少斌，韩志军，冯亚斌

（装甲兵学院作战实验中心，安徽蚌埠233050）

为了有效模拟兵力物理行为和智能行为的不同特性，提出了一个复合结构坦克兵力智能体模型，该模型综合了反应式行为和慎思行为两方面的优点。采用层次化组合方法建立了基于行为模式的兵力物理行为模型，使兵力智能体能对动态战场环境作出灵活的反应。结合兵力不同类型任务的分析，设计了基于规划的兵力智能行为模拟方法，使兵力智能体能按照战术原则进行作战任务规划。

行为建模，物理行为，智能行为，行为模式，任务规划

0　引言

兵力行为是引起作战复杂性的根本原因，兵力行为模拟是作战建模与仿真最具挑战性的工作，已成为作战建模与仿真的热点和难点研究领域。传统的基于有限状态机和规则的兵力行为建模方法，行为间的逻辑关系定义清晰，实现简单，实时性和反应性好，能很好地模拟作战实体的物理特性；但由于战场环境的动态变化和不确定性，对作战过程中各种情况进行预先的定义困难，将作战任务表示成各个独立的状态和对各状态迁移进行定义的过程非常复杂，难以实现复杂的推理过程等智能行为模拟。

智能体是具有一定智能的自治实体，具有自治性、反应性、面向目标性（主动性）和社会性4个主要特性。与传统的仿真建模方法比较，智能体采用“自底向上”的建模方法，系统没有集中式的控制，智能体通过相互间的协作和竞争，独立追求实现自己的目标，其结果是一个动态变化的环境，很适宜于对复杂自适应系统的建模与仿真，是兵力行为模拟的理想方法。本文主要探讨基于智能体的坦克兵力行为模拟问题。通过利用军事领域对兵力行为模拟的有利知识，结合传统兵力行为建模优点，按照面向服务的层次化组合思想，设计实现了一个复合型坦克兵力行为智能体模型。

1　坦克兵力行为智能体模型结构

兵力行为的模拟依赖于一组特定的功能组件及它们之间合理的逻辑控制关系。建立坦克兵力行为智能体模型，首先要设计合理的智能体模型结构，需要解决的问题是智能体由哪些功能模块组成，模块组成结构和控制关系，它们之间如何交互信息，智能体感知到的信息如何影响它的行为和内部状态，以及如何将这些模块组合起来形成一个有机的整体，实现坦克兵力智能体功能。

1.1坦克兵力行为智能体模型特点

目前，兵力行为智能体模型结构基本上可以分为反应型、慎思型和混合型3种。基于行为模式的反应型智能体和基于规划的慎思（认知）型智能体模型各有优势和不足，都不能完全满足坦克兵力行为模拟的需要。坦克兵力既有与战场环境变化有关的反应式动作，又有与战术原则相关的智能行为。通过对坦克兵力作战的抽象和武器特点分析，坦克兵力模型结构应满足：①模型结构要明确区分物理行为模型和智能行为模型，并体现它们之间的逻辑控制关系；②模型控制过程符合对兵力作战过程的抽象，并体现坦克分队作战使命、任务、动作的层次分解/组合关系；③模型应能有机结合基于行为模式的反应式行为和基于规划的慎思行为；④有利于坦克分队作战条令、战术原则等领域知识的运用。

1.2坦克兵力智能体模型结构

为了真实模拟坦克分队兵力作战行为，同时提高系统的模块性和可实现性，借鉴INTERRAP的层次结构思想，综合BDI慎思智能体和反应式智能体优势，采用复合智能体结构实现坦克兵力行为模拟。如图1所示。

图1　CGF Agent层次模型结构

模型主要由分层的兵力知识库和多状态的控制单元组成。在模型结构的设计上清晰地分离了兵力的知识库和功能控制部分，并层次化组织各功能模块。通过分离知识库和功能控制，方便了各自独立实现，提高了系统的模块性和灵活性，使各部分能采用最适宜的技术相对独立地加以解决，有利于军事领域知识的应用，增强了系统的可扩展性。兵力知识库设计按照坦克分队作战原则和战术规则（分队战术、单车战术）等领域知识的关系，根据包含知识的复杂度进行层次化的组织构造。一方面底层知识是上层知识的构造和描述单元，另一方面上层知识可以直接调用和触发下层知识，既方便了知识库的建立，又方便了作战领域知识的应用。

在控制单元设计上，根据战场环境下兵力受制性的特点，对经典的BDI智能体模型进行了适当的裁剪，并按照坦克分队作战使命、任务、动作的层次分解/组合关系进行组织。智能体按照“认知环境-决策-规划-动作”的方式进行行动，与实际兵力作战行动相一致。动作层通过物理行为实现，智能行为根据一般兵力和指挥型兵力角色的不同将智能行为分为局部规划和协作规划，分别对应任务和使命层。局部规划通过有机组合作战动作实现兵力个体任务，协作规划协调各兵力任务执行完成作战使命。

2　坦克兵力智能体控制单元

控制单元实现坦克兵力智能体作战行为的生成和控制。基于思维状态（mental state）理论的BDI模型把智能体作为思维系统来研究，认为智能体的行为是由智能体的思维状态驱动的，并通过对这些思维状态属性的描述和控制来实现智能体的行为。BDI模型为智能体如何行为提供了一种合理的解释，即智能体的行为是由智能体的思维状态驱动的，为智能体行为生成和控制提供了有效的框架描述。由于人类思维是一种典型的复杂系统，我们还远远没有完全掌握人类思维的结构和机理，对信念、愿望、意图的产生和形成还难以完整准确地描述，人们对意图的理解、推理规则、形式语义至今都还没形成共识，许多学者指出意图本质上是逻辑贫乏的；而且人类的思维与行为方式，与学习训练和所处的环境密切相关，难以建立适宜任何环境的通用人类思维行为模型。

战场环境中的兵力不同于一般智能体，其行为受上级命令的约束，要以上级命令来规范自身行为。本文基于BDI框架，根据作战环境下兵力的受制性特点，利用作战领域规范性、约束性知识对BDI模型进行适当的裁剪，来实现坦克兵力行为的模拟和控制。在BDI模型中，智能体的愿望之间可能存在矛盾，为由愿望导出意图带来了困难。而在战场环境中兵力具有较为明确的目标，即完成其担负的作战任务，消灭敌人，保存自己，其目标具有一致性，对兵力的行为进行了有效的限制和约束。兵力只需要决定其所企图的目标，兵力的意图便是当前承诺将要执行的目标（任务）。目标和任务是坦克兵力思维状态的关键属性，对兵力的行为有强制性的约束作用。坦克兵力行为驱动控制由态势认知与决策（BDI模型的裁剪）和一个分层的规划控制组成。态势认知与决策模块根据战场环境特殊性，通过信念、目标和任务描述兵力的思维状态，驱动兵力的行为。规划控制根据对作战使命、任务和动作的抽象，按照协作规划、局部规划和物理行为进行分层组织。

兵力智能体的行为过程与BDI模型基本一致，符合对实际作战过程的抽象。兵力根据当前的态势认知确定要实现的任务，任务经过规划后形成执行计划，然后由物理行为控制执行计划的动作序列（Courses of Action，COA）实现任务，这是兵力行为的基本模式。在任务的执行过程中，底层接口不断感知环境态势变化，并对环境的变化作出实时反应控制，使兵力对环境的变化能作出适时的合理反应。

2.1态势认知与决策

态势认知与决策是兵力行为模拟的基础。态势认知与决策是在一定的时间和空间内兵力感知周围环境信息，理解其中的含义，对形势作出评估，并以此为基础对其未来的事件和状态进行预测，决策兵力智能体要实现的任务。坦克兵力智能体态势认知与决策结构如图2所示。

图2　智能体内部态势认知与决策

①信念。信念是智能体对共享的外部环境和自身状态认知的符号表示，是关于自身、战场环境和其他兵力的信息模型。坦克兵力智能体信念包括战场态势和自身状态。战场态势（外部影响）决定了什么情况和环境什么模式能应用；自身状态（内部影响）决定什么模式适合达到智能体的当前目标，并影响智能体对其他智能体和自身能力的信任。

②目标。目标是智能体基于对信念的评估而确定的对将来的预期，是根据当前态势的分析评估以及要达到的作战目的而确定的。需要在知识库中的相关知识、作战原则等条件的支持下，通过决策机制确定。

③任务。任务是智能体为实现特定目标而执行的有目的的行为，表示智能体已对实现某目标作出了承诺，并将付诸行动。任务是具体化、实例化了的特定目标，决策机制决定哪个目标转变为任务，而规划机制确定实现任务的动作序列（courses of Action，COA），执行任务的动作序列决定了智能体的行为。任务是目标的子集并直接制约智能体的行为，智能体根据其任务作出规划、执行动作。

④评估决策。评估决策模块是态势认知与决策的核心。它的主要作用是：①控制智能体对战场环境的感知和通信，将感知的信息进行解释、分类，并更新信念；②对信念进行评估预测，确定并更新目标；③对目标进行决策确定要实现的任务；④对复合任务进行分解分配，调度规划机制生成任务计划（动作序列）；⑤反应式任务决策，在需要对外界激励做出及时反应时，决策执行何种反应式任务。

2.2任务规划

在决策机制基于感知的战场态势确定了当前的任务后，由规划机制实现完成任务的具体动作步骤。由于兵力在作战编成内担任特定的角色（连、排长或单兵），不同角色任务具有不同的特性。指挥员角色的兵力（指挥型）需要对分队任务协调进行规划，一般兵力只需对个体任务进行规划，规划相应分为协作规划和局部规划两层。

通过对坦克兵力作战决策规划过程和任务的特点分析，基于分队任务、个体任务和动作层次间的分解/组合关系，结合坦克兵力各种任务的统一描述，构建坦克分队层次任务网络HTN（Hierarchical Task Networks），基于分队层次任务网络HTN，建立规划算子库，实现坦克兵力智能体的任务规划。规划具有层次性的树状结构，它的节点是子计划、可执行的行为模式或基本动作。

协作规划是智能体进行分队使命任务规划和协作的机制。通过联合规划库、存于知识库的协作知识进行方案和协作的规划。只有担任指挥员角色的智能体进行协作规划和行动的协调控制。协作规划主要功能是实现分队任务的分解分配，并对各子任务的约束条件和协作要求进行规划，各子任务的实现计划由各下级智能体分别实现。

局部规划模块提供智能体个体任务计划的规划机制，即生成智能体完成特定子任务需要执行的动作序列。局部性体现在两个方面，一方面每个智能体根据其个体任务、自身的状态独立规划任务的实现计划，而不是由某个智能体对全局进行规划并将命令分发给其他智能体；另一方面，智能体并不需要对任务作出完全的规划，而只要生成近期的动作序列就可以了，因为环境是动态变化的，长期的规划很可能会因为情况的变化而失去意义。智能体在规划出部分动作计划后，便可交由下层执行，并继续规划后期的行动。

2.3物理行为控制

兵力智能体行为包括内省的思维活动（智能行为）和外向的物理活动（物理行为）。智能行为是物理行为产生的基础，并驱动物理行为；物理行为是智能行为的结果和外在表现。一方面，坦克分队作战条令对某些常规情况下的作战行为进行了明确规范，是作战实体特定环境下的例行行为，不需要进行推理和决策规划。另一方面无论坦克分队的使命、任务和作战式样如何不同，它们都是通过执行由基本的作战动作组成的动作序列COA（Course of Actions）实现的。通过将例行的和基本的作战行为实现为行为模式（保存在知识库中），可以兼顾智能体规划性任务（表示为基本行动序列COA）、例行性任务和反应式任务的执行和控制，物理行为控制模块主要功能是实现行为模式的执行和控制。

物理行为控制模块另一功能是实现智能体的反应式行为，使其能对动态变化的战场环境作出实时性反应。同时能够接受上层的规划方案，并控制执行方案，方案表示为行为模式组成的动作序列COA。当任务完成或由于情况发生变化，任务无法完成时向上层通告。

3　坦克兵力智能体知识库

知识库包含坦克智能体进行感知、决策规划所需的环境信息、作战原则和战术规则、方案规划等知识，包含的内容多，特点和应用各不相同。知识库按照包含知识的复杂程度进行构造，并与智能体控制单元层次结构相对应。最底层包含智能体的战场环境模型与信息，并按照分类信息进行组织，这类知识代表了战场环境信息、作战实体及实体之间的关系，是智能体的主要信息感知源。第二层知识是智能体物理（武器装备）行为模型，描述了智能体实体所能执行的基本动作、常规性的例行任务和对环境的各种反应行为，表示为各种行为模式（Behavior Patterns）。计划库（规划）位于第三层，计划库定义为递规地调用行为模式或没实例化的子计划。最高层是协作知识库，如协作协议和联合计划。

3.1战场环境信息

兵力智能体是基于对外部环境的认知进行动作的，智能体感知信息的主要来源是战场环境信息数据库，战场环境信息数据库通过环境建模实现。坦克分队战场环境信息主要包括地理环境信息和作战部署信息，这类知识代表了战场环境条件、实体状态及实体之间的关系。地理环境信息主要包括：①战场的地理和空间位置、地形、地表土质、地表覆盖、水文等；②战场人工环境，描述作战中临时形成的、影响双方行动的一些人为战场条件，主要包括工事和各种障碍、烟雾、电子干扰等；③战场环境对作战行为的影响，包括对侦察行为的影响、对机动行为的影响、对攻击行为的影响等。作战部署包括双方的部队编成与武器装备的配备、各作战实体的地域位置和状态等。环境信息数据库包含作战环境全局性的、完全的、准确信息，并按照分类信息进行组织。智能体能认知到的信息多少和准确程度取决于其感知能力。地理环境信息利用各种原始数据（如数字高程地图）通过环境建模产生。作战部署信息保存所有作战实体的位置、类型、状态、性质和当前的作战态势，通过作战想定和导调控制生成。

3.2行为模式

行为模式（Patterns of Behavior）是对智能体基本动作、常规例行任务和反应式行为的描述和程序实现，体现了智能体常规例行性任务的程序化解决途径。坦克分队许多低层作战任务是常规的例行性任务，作战条令和原则对这些例行性任务进行了详细规定，具有明显的技术性和强制性特征，不需要进行推理和决策规划。通过将坦克武器装备所能执行的基本动作，作战过程中一些常规的不需进行复杂规划推理的任务和对环境的反应行为实现为行为模式，可以有效提高智能体规划效率和实时性。武器装备基本动作行为模式主要用于局部规划和计划的表示，例行任务用于不需进行规划推理的常规例行化任务的执行，反应行为模式主要用于智能体对战场环境变化的动态反应。

为了简化建模和提高重用度，采用层次化组合的方法构建行为模式库。首先识别出武器装备需要辨识的状态变化，对引起这些状态变化所有操作进行建模，构成原子行为模式集，如启动、加速、减速、装弹、测距、瞄准、发射等。高层的行为模式通过一定形式的合成来构造。

3.3规划知识

行为模式描述了智能体的物理行为，反映了智能体武器装备的物理性能，武器装备在作战过程中如何使用取决于智能体的战术思想和原则。规划知识是用于支持智能体进行任务规划的知识，根据不同角色智能体任务规划不同特性，规划分为协作规划和局部规划，分别对应分队战术和单车战术知识。规划知识以层次化的基本计划单元存储，被表示成树状结构，基本计划单元是一些规划算法或例程，树叶为实现计划的动作序列并通过行为模式描述。

局部规划知识包括单车战术知识的描述和实现个体任务规划算法的规划库，提供单智能体个体任务规划机制，如机动路线规划、地形利用、障碍规避等。规划库实现了单车任务规划规则、常规的例行化任务计划（表示为相应的行为模式）和一些标准的任务规划算法。

协作规划知识描述了分队任务方案规划和协作的知识，包括坦克分队战术知识和协作的知识策略，以及实现不同分队任务方案规划的规划库，如作战阶段的划分、主攻方向和突破口选择、兵力部署、任务分配、机动方式、火力分配等。

3.4知识库的层间关系

在分层的智能体知识库中有两种层间关系。一是信息可能在层间传送，底层包含的信息对上层是可见的，而高层的知识对底层不可见。这使得我们能够从当前层局部的观点以底层知识显式地或隐式地描述计划和协议。第二，高层的数据结构以底层的数据为模块进行定义，方便了高层的计划的描述及直接交与下层控制执行。

4　结论

本文通过对坦克兵力作战过程抽象建模，将作战抽象为具有层次化分解/组合关系的使命、任务和动作3个层次要素，作战过程抽象为态势认知、决策、规划和控制执行。基于实际作战行为的抽象建模，结合坦克兵力特点，通过综合基于行为模式的反应行为和基于规划的慎思行为，按照层次结构化组合的思想对坦克兵力智能体模型进行了优化设计，模型具有如下特点：

①智能体的行为过程与实际兵力作战行为过程一致，能很好描述作战使命、任务和动作间的层次分解/组合关系，使得模型能自然地描述坦克兵力实际作战过程；

②通过清晰地分离智能体的知识库和功能控制部分，使各部分能采用适宜的技术相对独立地加以解决，方便了各自独立实现，提高了系统的模块性和作战领域知识的方便应用；

③通过层次化的组织结构，清晰区分了物理行为模型和智能行为模型，并根据智能体角色的不同，将智能行为分为局部规划和协作规划，组织控制结构与实际一致。层次结构化的组织简化了模型的构造，下层是上层的基本构造模块，通过有效组合可以构造上层模块；上层问题可以分解为下层实现，提高了模型构造效率和智能体决策规划效率；

④通过行为模式实现智能体的基本动作、常规例行行为和反应式行为，利用作战任务对智能体的规划行为进行规范和约束，综合了基于模式的反应行为和基于规划的慎思行为两方面特性，使其能互相补充，能很好地适应动态变化的战场环境。

⑤清晰地区分了智能体的两种基本智能行为，第一，智能体要实现的目标决策，通过模型态势认知决策实现；第二，智能体采用什么机制和步骤去实现目标，通过模型的规划层描述。区分两种智能行为从概念上区分要解决的问题和解决问题所用的方法，使我们能按照不同的情况选择适宜的实现机制。

［1］汲雪飞，金奕，袁刚.基于HLA的武器作战仿真系统框架研究［J］.长春理工大学学报（自然科学版），2008，31 （1）：63-68.

［2］郭齐胜，杨立功.计算机生成兵力导论［M］.北京：国防工业出版社，2006.

［3］马巧云，洪流，陈学广.多Agent系统中任务分配问题的分析与建模［J］.华中科技大学学报（自然科学版），2007，35（1）：54-57.

［4］KIMBERLY A R，MICHAEL R D.Modeling human and organizational behavior using a relation-centric multiagent system design paradigm［D］.Master's Thesis，U.S.Naval Postgraduate School，Monterey，2003.

［5］BAXTER J W，HORN G S.Executing group tasks despite losses and failures［C］//In Proceedings of 10th Conference on Generated Forces and Behavioral Representation，Norfolk，Virginia，May 2001.

［6］JAVIER V S，VIRGINIA D.Organizing multi-agent systems ［J］.Autonomous Agents and Multi-Agent Systems，2005，11 （3）：307-360.

Agent Model of Tank Force Behavior Modeling

SUN Shao-bin，HAN Zhi-jun，FENG Ya-bin
（Warfighting Experimentation Center，Armored Force Institute，Bengbu 233050，China）

In order to effectively simulate the physical behaviors and intelligent behaviors of real battle forces，a composite model of tank force agent is introduced，which combines the advantages of reactive behavior with deliberative behaviors.The agent's physical behavior based on behavior patterns is established through hierarchically modeling，which allows agent to react flexibly to changes in its battlefield environment.Based on the analysis of different tank force tasks，the agent's intelligent behavior simulation using plan-based patterns is discussed，providing the agent with the ability of devising plans deliberately according to its tactical tenets.

behaviormodeling，physicalbehaviors，intelligentbehaviors，behaviorpatterns，task planning

TP391.9；TJ811

1002-0640（2016）07-0179-05

2015-06-05

2015-07-12

孙少斌（1966-），男，山东招远人，博士，副教授，研究生导师。研究方向：计算机应用技术，作战建模与仿真。