谈卫勤保障大数据库建设
2018-09-26彭开男卫春海毛允杰
彭开男,卫春海,毛允杰
(空军军医大学空军卫勤训练基地,西安 710032)
大数据·云计算时代,对战争与非战争军事行动卫勤保障产生极大冲击,借助大数据“云”计算使不同军事行动中的卫勤保障有效有序进行,是每一位卫勤保障工作者必须面对和思索的问题。若能顺利推动,我军卫勤保障将会由以往分散指令式卫勤保障直接跨入一体智能化卫勤保障,到时所有卫勤保障都可实现自选一体智能化决策,使卫勤保障模式产生颠覆性甚至革命性影响和推动[1]。
1 卫勤保障大数据库建设概述
1.1卫勤保障大数据库基本内涵卫勤保障大数据库指建立在高超性能计算机网络信息高速流通平台基础上,通过对未来卫勤保障所涉及各类不同海量要素的标准化信息采集,使其超量信息数据进入云计算的卫勤保障网络环境中,并按照预先设计的网络云计算数学模型和网络大数据逻辑运行法则进行有机结合的智能化卫勤保障平台。其既有以高超性能计算机为主的卫勤保障网络大平台建设,又有以各子系统计算机为辅的网络小平台建设;既有硬件的广泛投入,又有各种智能化软件的大量研制开发与应用;既有各类海量卫勤保障要素标准化的信息数据采集,又有海量卫勤保障信息数据网络化计算机语言的编程和录入。其中,硬件平台建设是基础,智能化软件建设是保证,大数据信息釆集能否上机到位是根本和关键[2-3]。这里的“大数据”已不是一般意义上的“数据”,一般意义上的数据是指计算机系统中,各种字母、数字符号的组合、语音、图形等。(Big data)研究机构Gartner给出定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是一种规模大到在获取、存储、管理、分析方面大幅度超出传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Value)四大特征。即所谓四V特性,这些特性使得大数据区别于传统的数据概念[3-4]。
1.2卫勤保障大数据库建设目的和内容卫勤保障大数据库建设主要目的是通过助力卫勤保障,持续保持和提高广大指战员的战斗力。因为,卫勤保障是军队战斗力得以维系的重要基础,助力卫勤保障基本任务就是以最简洁方法、最快捷途径、最有效手段,使所有军人保持健康的体魄,使所有伤病员能得到及时有效的救治,使遂行各种任务的伤病员尽早尽快得到检查、救治和归队。具体要通过卫勤保障大数据库的有效建设,实现我军各种卫勤保障行动、决策决心、计划方案、力量抽组、装备器材、药品采购、组织协调等的人工智能化运作。最终,使所有卫勤保障都可通过大数据云计算的卫勤保障平台来实施,只要轻敲鼠标,各种智能化的一系列连贯性卫勤保障服务及方案就会供你自行选择。因此,卫勤保障大数据库建设对于现代卫勤保障就像各类基础设施一样不可或缺,为现代卫勤保障提供广阔空间,涵盖领域非常广泛。以卫勤保障行动不同来区分,可分为平时、战时和非战争军事行动卫勤保障大数据库建设。根据卫勤保障作用不同,可分为军队公共卫生大数据库建设、军人疾病诊断大数据库建设、军队医药科研大数据库建设、军人及军人群体健康危险因素分析大数据库建设、军队战时卫勤保障大数据库建设等[5-6]。
1.3卫勤保障大数据库建设的意义首先,卫勤保障大数据库建设是信息网络时代对卫勤保障提出的必然要求。信息网络时代,大数据云计算已经成为不可阻挡的趋势,是与自然资源、人力资源一样重要的战略资源,国家层面的竞争力将部分体现为一国拥有大数据的规模、活性以及对数据的解释、运用的能力。一个国家在大数据领域的落后,意味着失守这一战略制高点,意味着数字主权无险可守,意味着国家安全将出现漏洞[5-6],不可避免会对未来军队卫勤保障产生极大冲击。以数据共建、共享、共用为核心的卫勤保障大数据库建设,正在深刻地改变着未来卫勤保障的模式和机制,终将成为推动卫勤保障革命的重要力量。其次,卫勤保障大数据库建设是实施国家大数据战略要求的一项重要举措。大力推动卫勤保障大数据库建设,是开启未来卫勤保障制胜之门的“金钥匙”。智能化的重要基础就是大数据的挖掘利用,要“审时度势、精心谋划、超前布局、力争主动,实施国家大数据战略”,卫勤保障大数据库的建设,正面临一个难得的发展机遇,必须高度重视,强力而为,尽早尽快促成卫勤保障大数据库的建设[5-6]。
2 卫勤保障大数据库的研究与设计
随着大数据时代到来,传统卫勤保障数字化信息系统已远远不能满足海量卫勤保障数据存储处理、分析挖掘以及多元化卫勤保障数据服务等方面要求。海量卫勤保障数据经过生成及采集后,将异构后的海量数据,进行实时、高效的多样化存储,以实现复杂数据的快速查询和准确响应;如何通过数据挖掘采集手段,对海量数据进行深度分析,快速有效为卫勤工作者提供有价值的卫勤保障数据服务,达到最佳卫勤保障效果,成为卫勤保障大数据库建设急需解决的问题[6-7]。
2.1支撑卫勤保障海量数据多元处理需求平台建设的方法及技术该平台建成后可同时兼顾多种数据处理需求。能基于海量的卫勤保障数据,以统计学决策树的模型处理方法,对海量数据进行优化存储,提升计算效率,高效地为多样化卫勤保障提供海量数据支持服务。
决策树(decision tree)一般都是自上而下生成的。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树[5-7]。决策树的构成有四个要素:①决策结点;②方案枝;③状态结点;④概率枝(图1)。
图1 决策树构成四要素
决策树方法依赖分布式存储和分布式计算,通过并行处理,来进行卫勤保障各类海量数据的存储。运用此模型处理方法,能在实现分布式冗余存储基础上,极大保证高可靠、高并发及可扩展性。再加之充分利用原有的统计结果,可在Hadoop或Storm平台基础上,进行增量计算来生成和更新决策树,可以实现迅速定位统计数据位置,避免大数据量访问,进而减轻系统负载,提高查询的效率和访问的并发性[5-8]。
Hadoop是由Apache软件基金会研发的开放源码系统, 基于Map-Reduce计算框架提供分布式存储和计算等各种服务,Hadoop生态系统主要包括分布式文件管理系统(HDFS),分布式资源调度程序(YARN), 分布式消息发布订阅系统(Kafka),分布式计算框架(Mapreduce),分布式协作服务(Zookeeper),实时分布式数据库(HBase),数据仓库(Hive), 数据流处理(Pig), 数据挖掘(Mahout), 日志收集工具(Flume),数据库ETL工具(Sqoop), 安装、部署、配置和管理工具(Ambari)等。用户通过搭建廉价的Hadoop集群,便可应用Map及Reduce计算过程完成海量数据的处理和分析任务[6-8](图2)。
Storm 是一个开源的分布式实时计算系统,可以简单、可靠地处理大量的数据流。Storm 有很多使用场景:如实时分析、在线机器学习、持续计算、分布式RPC(远程过程调用)、ETL 等等。Storm 支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm 的部署和运行都很便捷,而且更为重要的是可以使用任意编程语言来开发应用[6-8]。
图2 Hadoop生态圈
运用Hadoop和Storm分布式数据处理技术,可以进行卫勤保障海量数据挖掘平台设计模型的构建[6-8]。因为Hadoop不仅具有易用的编程模型,其分布式数据处理技术还具有可靠性高、扩展性强、高度容错等特点,用户可以较容易地写出不同于传统SQL数据库的高效程序代码。所以,作为一个批处理系统, Hadoop在海量数据处理上得到广泛使用。但是, Hadoop不擅长实时计算,也是业界一致的共识。而Storm是实时的、分布式以及具备高容错的计算系统,能够连续地进行流计算,很好弥补Hadoop时效性不高的问题。与近年涌现出的一些时效较强的S4和Puma数据处理系统相比,Storm部署简单、性能较为出众,非常适合于高效处理源源不断的数据源,并实时计算和输出结果,被广泛应用在持续计算、实时分析、ETL等领域[7-9]。
2.2支撑卫勤保障海量多元数据挖掘平台总体设计框架卫勤保障大数据库建设要基于国家和军队卫勤保障战略需求及卫勤保障发展趋势,整合原有军队卫勤保障信息数据服务系统,构建规模化、可异构、可扩展、互联互通的云平台,实现跨战区、跨军种、跨地域、跨专业的卫勤保障大数据库,这个跨多种信息平台的卫勤保障大数据库,是由军队卫勤最高权力机构有效管控的一个集军队卫勤保障海量数据资源管理、共享和数据高度整融合的超大数据平台。卫勤保障海量数据挖掘平台基于卫勤保障要素海量数据“云”,实现卫勤保障数据的分布式存储及并行化处理,旨在优化数据存储结构,提升数据处理效率,以提供多元的个性化卫勤保障服务[7-9]。
由于卫勤保障数据的复杂性及服务的特殊性,平台在层次构建时需考虑: 一是要满足卫勤保障海量复杂的数据管理,即结构化、半结构化和非结构化数据管理,全局数据和本地数据管理;二是要支持海量数据实时处理与精准服务。
综合考虑,构建卫勤保障海量数据挖掘平台的层次模型(图3)[8-10]。
图3 卫勤保障海量数据挖掘平台框架
业务层:业务层位于最上层。通过调用功能层单一服务接口,或多种服务接口组合,形成针对于不同卫勤保障对象的多样化服务。包括不同卫勤保障实时在线查询、报表统计、预警、行为分析、行动决策等服务。
功能层:功能层位于服务层下面。其主要作用是作为服务接口层,平台层通过多种处理方式计算所得的结果形成多样化的服务接口,供业务层进行调用。其主要包括机器学习、深度挖掘、分析统计、实时查询等功能。
平台层:平台层位于功能层之下,基础层之上。主要功能是计算处理各种卫勤保障数据。包括原有系统数据的导入,实时数据流处理,批量数据处理系统以及用于数据挖掘的算法库。能够高效支撑实时/离线多种数据处理需求。
基础层:基础层是平台的最底层,是卫勤保障海量数据挖掘平台运行的支撑平台。其采用云计算架构,弹性存储,灵活可扩展,便于对卫勤保障海量异构的数据进行分布式存储。在云平台上部署有分布式文件系统HDFS,NoSQL数据库、HBase及MySQL数据库等多种类型数据库,主要是为了保证复杂多样的卫勤保障数据存储。
综上,卫勤保障海量数据挖掘平台层次模型,具有平台系统的服务特点,海量数据的存储能力。在数据处理流程各部分设计原则指导下,绘制出卫勤保障海量数据挖掘平台的设计框架。卫勤保障海量数据挖掘平台具有三个特点:一是灵活性。卫勤保障历史档案中新增项,或新增加的卫勤保障服务需求,无需大规模变动原有业务,可实时完成系统重构。二是可扩展性。平台基于云计算架构、弹性存储、绿色节能,层与层之间相对独立,具有较强的计算和存储的可扩展性。三是重用性。该架构将实时数据处理与批量数据处理有机结合,不仅适用于卫勤保障海量数据的挖掘处理,还可用于各类军民融合卫勤保障海量数据处理等[8-10]。
2.3支撑卫勤保障海量数据挖掘的方法要把挖掘来的海量数据传送至现有卫勤保障“云”平台,平台再根据这些数据给出若干方案,以此选择判断卫勤保障结果的优劣,并给出基本的卫勤保障报告。让参与军队各种行动的每个军人和军人群体都能了解自身卫勤保障服务的内容。
数据挖掘在于通过数据计算,发现客观现实表象的本质及内在规律,这是当前计算机科学领域人工智能方面研究的热点。数据挖掘综合数据分析、数据聚类、数据分类等技术,能够从大量随机的实际数据中进行抽象计算和科学分析,从而提取隐含的信息和知识,并为现实中的决策过程提供参考。数据挖掘主要分为两大类:描述和预测。描述性挖掘是通过计算,得到数据库中数据的一般特征或规律,并为这种特征或规律的解释提供数据支持。预测性挖掘指基于数据库中的数据,计算得到特征或者规律,为现实应用提供科学预测[8-11]。
数据挖掘具体方法可分成很多类别,如聚类算法、神经网络算法、决策树算法、关联规则算法及贝叶斯分析等,可广泛应用于模式识别、气象预测、指挥自动化系统等诸多领域。数据挖掘过程由六个主要步骤来完成:定义问题、预处理数据、观察数据、构建数据模型、结果解释及评估。数据处理的流程可以循环,创建和表示训练数据模型可以是迭代过程。不同卫勤保障选项与检测参数的关联性挖掘,通常采用贝叶斯网络算法,通过直接编写MapReduce程序就可实现[9-11]。
3 卫勤保障大数据库建设实现的主要途径
3.1主要靠国家或军队的指令性任务或计划来推动完成这是实现卫勤保障大数据库建设的主要途径,也是最有效途径,这是由网络智能化时代卫勤保障的地位性质和客观要求决定的。需要军队最高卫勤保障权威机构,指派专门的机构和专业技术人员进行顶层设计,刻苦攻关,从人力、物力、财力等各个方面来有效推动才能实现。
3.2通过军队或院校的相关专业研究机构有效创新的科研成果来推动和实现这是实现卫勤保障大数据库建设的科学支撑。物联网、大数据云计算及其所体现出的各种人工智能,给民众生活带来极大方便,并随处可见。就军队来说,把其运用到军队的所有卫勤保障中,还是一个新生事物。信息网络智能化时代的大数据云计算运用到军队卫勤保障,绝对不是生活中对一些数据的简单罗列和复制,而是在一个陌生领域的重新开发,需要投入素质高的专门人员,对卫勤保障大数据库中的硬件和软件进行专门的研究和开发,找到并发现支撑卫勤保障大数据库运行的各种应用和人工智能软件,以此支撑大数据库的正常有效运转。
3.3需要一大批有造诣的专业技术人才进行努力攻关才能有效推动这是卫勤保障大数据库建设成功与否的关键。这些有造诣的专业人才主要指高性能计算机维护人才、主机与子机大数据网络维护人才、卫勤保障各种要素数据釆集专业人才、卫勤保障各种要素数据编码和计算机录入的专业人才、卫勤保障大数据库有效运行的软件设计和维护专业人才、大数据云计算及人工智能化应用软件设计与维护的专业人才等。这是推动大数据库前行和发展实现的关键,否则卫勤保障大数据库的建设将寸步难行。