基于大数据技术的战备物资储备量建模与分析∗
2019-11-13肖治鑫杨西龙姜玉宏
肖治鑫 杨西龙 姜玉宏
(陆军勤务学院 重庆 401331)
1 引言
战备物资储备是为保障部队及时应对战争和非战争军事行动需要而预先进行的物资储备,充足、合理的战备物资储备,是我军遂行各项军事任务的基础[1~2]。由于我军战备物资储备长期缺乏严格科学定量分析,储备量的确定比较模糊,致使储备效益不高,浪费较为严重。虽然战备物资储备的研究逐渐受到军内外的专家、学者广泛重视,形成了一批较大影响的学术研究成果[3],但从整体上来看,战备物资储备的理论研究仍是一个新兴的领域。
如今,随着时代的发展,“大数据”一词进入人们的视线。随后,大数据更是不断地向各个领域渗透,己经广泛地应用于互联网、金融、教育等各个行业。根据IDC 作出的估测,数据一直都在以每年50%的速度增长,也就是每两年增长一倍(大数据摩尔定律)。人类在最近两年产生的数据量相当于之前产生的全部数据量。预计到2020 年,全球将总共拥有35ZB 的数据量。相较于2010 年,数据量将增长近30倍[4]。
军队战备物资储备种类繁多,数量庞大,其中存在着巨大可被挖掘的有价值信息。若是利用大数据技术对战备物资储备进行研究,将成为一种新的储备决策研究方式,为我军战备物资储备以及后勤保障的建设提供借鉴与参考。
2 大数据技术简介
大数据技术包括数据的采集、数据的存储和管理、数据的处理与分析、数据的隐私和安全。其中的关键是数据的存储管理与数据的处理分析,归结起来为两大核心技术,一是数据分布式存储,二是数据分布式处理[5]。也就是说,在单台计算机无法满足海量数据的存储管理与处理分析的时候,采用整个计算机集群网络来对庞大的数据进行存储和处理。下面将对本文所要利用的大数据相关技术进行简单介绍[6]。
2.1 大数据处理架构Hadoop
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
Hadoop 并不是一门单一的技术,实际上是一系列大数据技术的集合体,是一整套解决方案的统称,可以看作一个项目。对于这么一个项目,有两大技术核心:分布式文件系统HDFS 以及分布式并行框架MapReduce。这两大核心解决了大数据领域中的两个问题:海量数据的分布式存储、海量数据的分布式处理[7]。
2.2 分布式文件存储系统HDFS
HDFS 的全称是Hadoop 平台上的分布式文件系统(Hadoop Distributed File System)。HDFS 是整个Hadoop 平台上面两大核心组件之一,解决了海量数据的分布式存储问题。
分布式文件系统在物理结构上由计算机集群中的众多节点所构成。在计算机集群中,存在一台作为主节点,也被称作“名称节点”;其余的作为从节点,或被称为“数据节点”。主节点承担起数据目录,也即是元数据的服务。主节点主要负责文件和目录的创建、删除、重命名等工作,同时主节点还管理着从节点和文件块的映射关系,因此客户端须先访问主节点才能找到所需要的文件块所在位置,进而到相应位置读取所需文件块[8]。从节点则完成相关数据存储和读取任务。在存储数据时,主节点分配数据存储的位置,由客户端把数据直接写入相应从节点;读取数据时,客户端从主节点获取从节点和文件块的映射关系,然后就可以到相应位置访问文件块。同时,从节点要根据主节点的命令来创建、删除数据块。分布式文件系统结构如图1所示。
2.3 分布式并行编程框架MapReduce
MapReduce 正如它的名字那样,主要分为Map(映射)和Reduce(化简)两个阶段。MapReduce 将复杂的、运行于大规模集群上的并行计算过程高度地抽象为两个函数:Map 和Reduce,这两个函数及其核心都源自函数式编程语言。在MapReduce中,一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的小数据块,这些小数据块可以被多个Map 任务并行处理。MapReduce 框架会为每个Map 任务输入一个数据子集,Map 任务生成的结果会继续作为Reduce 任务的输入,最终由Reduce任务输出最后结果,并写入分布式文件系统[9]。
图1 分布式文件系统结构
MapReduce 设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为移动数据需要大量的网络传输开销,尤其是在大规模数据环境下,这种开销尤为惊人。所以,移动计算要比移动数据更加经济。本着这个理念,在一个集群中,只要有可能,MapReduce 框架就会将Map 程序就近地在HDFS 数据所在节点运行,即将计算节点和存储节点放在一起运行,从而减少了节点间的数据移动开销。
2.4 分布式数据库HBase
HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库。HBase 是一个分布式存储系统,HBase 最主要的特点是用来存储非结构化和半结构化的松散数据。HBase 是架构在底层分布式文件系统HDFS 基础上的,同时MapReduce 可以对HBase相关数据进行处理[10]。
对于传统关系型数据库而言,其扩展能力又非常有限,导致对数据的存储能力捉襟见肘。并且,目前很多数据结构经常发生变化,关系数据库模式确定后就很难变更。HBase 的出现,有效地弥补了传统关系型数据库的缺陷。
2.5 数据仓库Hive简介
Hive 是一个基于Hadoop 文件系统之上的数据仓库,支持大规模数据的存储分析。Hive和传统的数据仓库是不同的,传统的数据仓库既是数据存储的产品,又是数据处理分析的产品。Hive本身并不支持数据存储和处理分析,可以将它看作一个面向用户的编程接口,给用户提供了一种编程语言,让用户通过类似SQL的编程语言去编写分析需求[11]。
Hive 是架构在底层Hadoop 核心组件基础之上的。Hadoop 平台有一个支持大规模数据存储的组件HDFS,还有一个可以支持大规模数据处理的组件MapReduce。Hive 就借助于这两个组件,完成数据的存储和处理分析。Hive 与Hadoop 生态系统中各个组件的关系如图2所示。
图2 Hive与Hadoop生态系统的关系
如图2所示,Hive是架构在整个Hadoop体系结构顶层的,是建立在Hadoop 平台上的数据仓库,是基于底层的HDFS、HBase、MapReduce等组件。
3 战备物资储备量测算模型建立
战备物资是保障作战行动的重要物质支撑力量,在有效履行后勤保障任务中有着不可替代的作用。战备物资储备量测算分析是科学确定战备物资储备的基础和依托,是围绕军事斗争准备提升后勤保障能力的具体体现。
本文结合我军当前实际,按照物资消耗特性和保障特点,建立战备物资储备量测算模型。基于大数据对模型参数进行分析研究,辅助完善战备物资储备量测算模型,对战备物资储备提供科学合理方案。
3.1 战备物资储备模型概述
战备物资涉及全军数十个储备专业,数十万种储备物资,具有种类繁多数量庞大的特点。不同的专业之间存在着一定的交叉性和各自的特性,统一建立模型和逐个专业建立模型都较为困难。
本文从保障综合需求出发,将战备物资分作两大类进行建模,其中又根据战备物资储备影响因素,考虑战备物资的消耗、生产以及和军事供应链其他环节协调程度,建立如下战备物资储备量测算表达式:
其中,Q 表示战备物资的消耗量,下文将对其进行分类,分成消耗型Qx和使用型Qs两类;P 表示战备物资的生产补给量,该生产补给量是指在军民融合环境下,由地方企业生产提供且用于部队需求的战备物资量与军队内部对于该物资生产量的总和;δ 表示战备物资自然损耗率,该损耗率与保障方向的自然环境有关;S 表示决策战备物资储备量,即是上级部门最终决定某战备物资所需要的储备量;S'表示战备物资实际需求量,因此S'等于战备物资消耗量减去生产补给量的值,由于存在自然损耗,S'则又等于决策储备量去除自然损耗量的值。
3.2 战备物资消耗量测算分析
3.2.1 战备物资消耗分类
战备物资消耗量的测算是确定战备物资实际需求量的基础,对战备物资消耗进行分类建模研究是为了适应不同战备物资既存在差异性又具有一定相似性的客观要求。区别于之前不少学者研究主要从战备物资所属专业为出发点对各专业中不同的物资进行建模计算,本文根据战备物资消耗规律的特点,结合已有消耗标准、配备标准,对战备物资消耗进行分类建模。
从战备物资消耗特点来看,战备物资可分为两类,一是使用即减少的消耗型物资,如油料、弹药、医疗绷带等;二是可重复进行使用的物资,如车材、仪器设备、帐篷、被装等。
从战备物资消耗的计算模型上来看,这两种模型总体上具有一定的相似性,都是围绕多种后勤保障力量,考虑多种保障形式,对同一种物资消耗需求量进行测算的研究。
3.2.2 消耗型战备物资建模
消耗型物资消耗量模型为
Qx表示消耗型战备物资的消耗量;n 表示保障单位的数量;N 表示保障单元的数量,即是保障单位中装备或者人员等的数量;C 表示消耗标准,即是保障单元在每个单位时间或者单位里程的物资消耗量;t 表示保障时间、保障里程、消耗次数、消耗件数、消耗个数等。
消耗型物资一般为消耗规律与保障时间、保障里程等密切相关的物资,其保障对象消耗量通常按照对应的消耗标准计算,如弹药、医用药品、给养物资中的单兵食品、舰艇远航食品、油料装置中的液压油过滤装置、常规油料化验仪器及主油中的汽油、航煤、柴油等。
消耗型战备物资起着基础性的保障作用,它的保障对象为所有对该类物资具有消耗需求的单元,其消耗不考虑装备是否受损。该类物资还具有一次性消耗的特点,一般该类物资使用即减少,不考虑重复使用。
在对消耗型战备物资建立模型时,将保障环境以及受保障单元的自身性质对战备物资的影响一同计算到t 中。受保障环境和受保障单元的自身性质的影响,使得消耗型战备物资的消耗量越多,则t 的值越大;反之,t 的值越小。
3.2.3 使用型战备物资建模
使用型物资消耗量模型为
Qs表示使用型战备物资的消耗量;R 表示战备物资保障配备标准;K 物资使用次数;θx表示保障环境影响系数;θy表示保障类型影响系数;θb战备物资补偿系数;n,N 表示意义同上。
使用型战备物资具有能够多次使用的特征,该类物资对应其保障对象有相应的配备标准,一般按基数计算,如军需物资中的被装、作战靴、作战头盔、睡具睡袋,野营物资中的充气床垫、行军床、铺板、油料装备中的软体油罐、软质输油管线,特种机具中的通风除湿设备、给排水设备、发电设备、净水设备等。
根据战备物资影响因素以及使用型战备物资特点来看,该类物资主要受保障环境θx的影响,需要考虑气候、海拔对战备物资带来的影响。同时,由于保障单元自身性质的差异,各单元对于使用型物资的消耗量也不相同。比如野战单位、后勤保障单位、机关单位、军事院校等,或是同一个单元战时与平时对于同一种使用型物资的需求量是有差别的,这主要根据受保障单元自身性质以及情况来进行判断。
同时,通常对于使用型物资的配备按批次进行计算,若不考虑每次作战的回收,不仅将造成大量物资的浪费,同时也加大了后勤部队保障任务的难度。在此,本文引入物资使用补偿系数θb,根据不同物资性质,对物资在每次使用后进行一定的损耗补偿,以恢复原有保障水平。
3.3 战备物资生产补给量测算分析
在对战备物资生产补给量测算分析时,应将“军民融合”这个因素考虑进去,根据地域经济能力与企业的生产水平结合军队内部物资生产水平,对于快速生产类的战备物资就可以减少存储,甚至不储。保障活动若是和地方企业联系不紧密,甚至筹措战备物资只靠军队内部生产,物资的供应能力肯定较前者弱,物资则应该根据实际情况适当多储[8]。
鉴于以上因素,对于战备物资生产补给量建立如下模型:
m 表示参与“军民融合”的地方企业与军内物资生产部门数量总和;L 表示企业生产某战备物资的单位时间产量;T 表示生产时间;θz表示供应链影响系数。
在整条军事供应链中与战备物资储备紧密关联的有运输、装卸搬运、配送等环节。利用地方企业对战备物资储备进行生产补给,整个过程对于流通性有着较高的要求。因此,引入供应链影响系数θz,该系数用来表示在供应链过程中由于单位时间的运输量低或者装卸搬运的效率不高等造成的影响。如果战备物资储备与军事供应链其他环节都能协调配合,紧密联系,则这方面的影响因素不予考虑。
3.4 基于大数据对模型参数的分析
上述模型中,对于保障单位的数量n,保障单位中装备或者人员等的数量N ,参与“军民融合”的地方企业与军内物资生产部门数量总和m,物资使用次数K ,企业生产某战备物资的单位时间产量L,生产时间T 等主要根据具体实际进行判断;消耗标准C ,战备物资保障配备标准R 的确定主要根据已有的消耗标准和配备标准进行取值,各专业有较为详尽的研究。以上参数在此不做探讨,本文主要利用大数据技术对战备物资自然损耗率δ,保障时间、保障里程、消耗次数、消耗件数、消耗个数等t ,保障环境影响系数θx,保障类型影响系数θy,战备物资补偿系数θb,供应链影响系数θz进行分析。
3.4.1 数据的采集
利用大数据技术对模型参数的确定前需要对各参数所涉及到的数据进行采集。其中战备物资自然损耗率δ,保障时间、保障里程、消耗次数、消耗件数、消耗个数等t 以及保障环境影响系数θx这三个参数均受保障自然环境的影响,因此在数据采集的过程中,将采集各类战备物资在不同保障环境下的历史消耗量。保障自然环境通常分为城市、山地、江河、荒漠草原、水网稻田、热带丛林、高寒山地、严寒地区等。在保持其余参数相同的情况下,采集在不同保障环境下的数据,则能够反映保障自然环境对战备物资储备带来的影响。
对于保障类型影响系数θy,通常采集不同类别的保障单元对物资的消耗情况。根据采集不同类别保障单元对同种物资的消耗数量,进行对比则能够反映保障类型对战备物资储备带来的影响。比如野战部队对于作战靴、作战头盔、野营帐篷、行军床等的消耗较高;科研单位对于此类物资的消耗就相对低很多。
对于供应链影响系数θz,对涉及到在整条军事供应链中与战备物资储备紧密关联的环节历史情况数据,比如该地区的交通事故发生频率、地方物流发展状况等数据进行采集,反映供应链流通性对战备物资储备补给带来的影响。
对于战备物资补偿系数θb,根据查询或者导入各保障单元对于使用型战备物资的历史消耗情况、数据来分析确定。
3.4.2 数据的存储
在拥有大量数据后,使用分布式文件系统HDFS 实现战备物资储备海量数据存储。HDFS 是面对海量数据存储才应运而生的,另外,HDFS对硬件的要求很低,可以运行在廉价服务器甚至个人电脑上,当数据上传到HDFS 系统中时会在主节点的控制下存储到不同的数据节点上,避免了存储系统中的单点故障问题,随着数据量的增加,HDFS可以方便水平扩展[12]。
3.4.3 数据的分析处理
本文将采用数据仓库Hive 与分布式数据库HBase 相结合的方式对海量数据进行分析与处理。因为Hive 和HBase 本身就是架构在分布式文件系统HDFS上的。Hive借助HDFS完成整个大规模数据的分布式存储,借助于MapReduce完成整个大规模数据的分布式并行处理[13~14]。HBase架构在底层分布式文件系统HDFS 基础上,同时MapReduce 可以对HBase 相关数据进行处理。其中,HBase和Hive之间形成互补的关系,Hive适合进行海量数据批处理;HBase 是支持实时交互式查询的数据库,适合交互式实时查询分析,弥补了HDFS不支持随机读写的缺陷[15]。
对有关模型参数的海量数据进行处理分析或者实时查询,从而对战备物资储备量进行决策。整个大数据技术框架如图3所示。
图3 大数据技术框架
其中,大数据层采用的就是相关大数据技术,也是Hadoop 平台软件框架中的技术。最底层采用HDFS分布式文件存储系统来满足战备物资中海量数据存储的需求;存储完数据后对数据进行分析,其中离线分析是指对数据进行批量处理,Hadoop中的MapReduce最擅长的便是批量处理,即图中的MR。除了MapReduce 以外,还有图中所示的数据仓库Hive 和Pig;对于数据实时查询,可以利用Hbase分布式数据库进行实现。
4 结语
对战备物资储备量的探究,以建立战备物资储备量测算模型,基于大数据技术对模型进行分析处理,完善模型的方式,使战备物资储备决策更加科学、高效;使我军战备物资储备决策能力与国家科技水平、未来复杂战争形态下军事背景与作战需求、国防军事实力以及后勤保障能力的发展相适应。战备物资储备量的研究是新军事变革对于后勤保障的客观需求,对于提高后勤保障能力具有重要意义。