面向战略研究的大数据体系建设
2018-03-21,,
, ,
大数据在军事价值上是一种新型核心战斗力要素和军事变革新引擎[1]。随着基于网络信息体系联合作战能力的提升,全域作战能力的需求越来越高,夺取大数据战略制高点已经成为各主要军事大国战略竞争的新焦点。战略大数据是与战争筹划和战争指导相关的、高增长率和多样化的海量信息资源。如何从开源的具有海量异构属性的数据中挖掘高价值的情报信息,是信息时代战略研究、战略决策亟待解决的基本性问题。
1 战略大数据体系建设面临的挑战
战略大数据体系是以数据库服务器为中心、以客户端或浏览器为网络基础、以各类软件工具为服务手段、能为战略研究提供多样化服务的多层模型结构,注重战略数据获取、存储、更新及挖掘等功能的实现,为战略研究的定性分析与定量分析相融合搭设数据管理和挖掘的一体化计算平台。它着眼于未来信息化战争的战略研究和战略决策,但面临着一系列海量、复杂、交叉、多向大数据挑战。
1.1 战略信息数据多元巨量,难以提炼高价情报信息
信息化战争演变催生了战略大数据,信息获取手段的多元化使数据类型及数据之间相互关系高度复杂。信息来源包括互联网、新闻媒体以及各类技侦、谍报信息或通过空中侦察获取的战场目标及环境信息[2],信息内容涉及各国的政治、经济、军事等历史信息以及武器装备、军事力量发展的最新动态,数据存储结构包含结构化、半结构化和非结构化,表现形式有文本、网页、音视频、图形图像等。面对数据密集、计算密集以及通讯密集的战略大数据,要在短时间内甄别真伪、提炼“真金”、综合分析,进而服务战略研究,辅助战略决策,超出了传统战略分析方法和手段的能力。
1.2 战略信息数据高度复杂,难以挖掘数据潜在关系
传统战略研究大多基于研究机构或个人经验,根据情况进行形式逻辑归纳及辩证逻辑分析,提出的论点、对策、建议多属于经验判断,缺乏定量分析的数据支撑,缺乏人工智能的定量手段,缺乏从数理逻辑角度分析战略动态演变的过程,成为制约战略研究效率和质量的重要因素。
1.3 战略信息数据多样多向,难以综合集成各类数据
战略大数据的数据属性之间不仅是因果关系,更多的是线性或非线性的相关关系[3]。数据呈现多维度、多峰值的复杂模式,数据的复杂性和战略研究的特殊性,需要诸如模式识别、机器学习、语义分析、自然语言理解、博弈论、军事战略理论等众多领域知识交叉融汇。
2 战略大数据体系的功能需求分析
战略研究大数据体系一般从定量化角度分析战略研究过程,包含了从数据获取、分类存储、定向检索、数据挖掘及统计分析等过程,针对战略需求进行事件预测、智能推荐、规划推理、模拟仿真、辅助决策、风险效能评估等任务。
2.1 战略信息主动搜索功能
数据资源获取、导入及动态更新是战略大数据首先要解决的基础性问题。主动搜索功能是根据战略研究需要,从互联网自动地、迅捷批量地获取数据,经过自动清洗、分类写入数据库,同时提供灵活的数据采集配置模板,可实现自定义的采集时间、采集对象、采集关键字等功能,完成包括摘要、发布时间、发布实体、正文等要素的数据采集。其中,对采集数据经过云化ETL处理后写入数据库,进行信息初始化、更新及分类,充实完善基础数据。
2.2 战略信息垂直检索功能
高效准确的信息检索是搜素引擎的基本功能。传统通用搜索引擎能为用户提供广度搜索的海量信息,但存在信息无序化、查询不准确、语义内涵不精准等问题。战略研究专业性强、保密程度高,对信息查全率及查准率有较高要求,构建战略信息垂直检索系统才能满足战略研究人员对高价值信息检索的需求。通过选择性抓取非结构化的战略数据并进行结构化抽取,经过去重、分类、分词及正则化等预处理工作,对战略信息进行语义分析及关联分析、分类分析、聚类分析,定向抽取相关字段,满足战略分析高查全率和高准确率的检索需求。
2.3 战略分析挖掘计算模型
采用挖掘计算模型辅助战略分析,是从定性分析向定量分析的拓展。由大数据定律可知,有规律的随机事件在大重复条件下,呈现出必然的统计特性。因此,基于大数据的战略判断,以数理统计和机器学习理论为基础,通过构造挖掘计算模型为特定目标提供高价值信息。
如2013年Baggott运用数据挖掘模型研究相互感知中不确定性在安全困境形成过程中的作用。该研究采集了1969-1981年中国官方内部讨论资料、美国Foreign Relations of the United States(FRUS)数据库中的文件,以及《纽约时报》关于双边外交事件的130余万条新闻,发现当美国对中国的感知中存在不确定性感知时,将会导致美国对中国持更加积极友善的态度。
3 战略大数据体系结构设计
针对战略大数据体系的功能和逻辑,遵循高内聚、低耦合的模块化原则,按照数据获取、存储、检索、分析等阶段设计了5层体系结构,自底向上分别为数据源、获取层、云存储层、能力层和应用层,数据流及相关处理自底向上进行(图1)。
3.1 数据源
主要包括来自于互联网的开源数据及局域网或传感器的数据。这些数据呈现分布式异构模态,主要有结构化、半结构化或非结构化形态。随着云存储技术及移动互联网的广泛应用,数据量爆发式增长,开源互联网数据将是战略大数据的主要数据源。来自于局域网或传感器的数据,如军队基础情报保障数据(包括基础战略情报数据、作战力量数据、武器装备数据、作战环境数据及目标情报数据等)和侦察情报支持数据(包括战场态势感知数据、地理空间环境遥感数据、预警探测及目标跟踪数据等),也是数据源的构成成分。
图1战略大数据体系结构设计
3.2 获取层
对开源数据主要通过主动搜索方式获取,对传感器或局域网数据设计标准化接口获取。对开源数据必须具备支持对表、文件、消息等多种数据的实时增量数据采集(使用flume、消息队列、OGG等技术)和批量数据分布式采集(SQOOP、FTP VOER HDFS)等能力,对研究对象和目标明确的任务采用网络爬虫技术实现信息的主动搜索[4]。在数据获取层,需要对目标数据进行交换、转换、装载、传输,必须实施统一、规范、科学的分类和描述。流数据处理面向规模宏大且按次序到达的数据序列,如特定目标遥感数据、各类传感器网络数据等。获取层必须具备支持与主流数据库的对接能力,包括Oracle、Hive、Gbase、Impala、Aster、Hbase、Mongo等。
3.3 云存储层
本文提出采用Hadoop平台实现大规模分布式数据资源存储及并行化计算和非结构化数据处理能力,实现低成本存储和低延时及高并发的查询能力。分布式数据库负责存储、加工、关联相关数据,并提供分布式计算,成为数据深度分析和数据挖掘的物质基础,同时向主数据仓库输出高度汇总后的数据。
3.4 能力层
能力层包含战略分析必须的各种基础算法模型,同时映射为各种数据分析能力。对于获取的数据首先能进行统计基础分析,从典型的数理统计基础分析及多维统计分析,到利用机器学习技术开展数据挖掘、知识发现等模型设计,随后利用数据可视化技术完成与用户的交互,最终利用评估决策模型为战略研究提供辅助手段。在能力层主要的技术手段是基于大数据条件下的统计机器学习模型算法的研究及设计,尤其是基于深度学习理论的、面向海量数据的特征提取及表达方法、分类和聚类方法、数据关联性分析、不确定性分析等。
3.5 应用层
应用层直接面向终端用户。从服务方式看,应用层主要包含基础信息分析、决策评估分析及知识应用3方面。这些应用既能独立使用,也能与其他应用联合使用。
战略大数据体系从信息获取、存储、检索及挖掘计算模型形成完整的信息链,可满足战略研究需求,但战略研究复杂、战略目标众多、战略环境多变,致使体系的功能还不能完全满足战略研究的需求,模型算法的效率仍有较大提升空间。
4 战略大数据系统结构分析
战略研究大数据分析技术,以体系结构设计理念为导引,从数据、算法、策略、应用和系统架构等多维度出发,全面梳理、整合战略研究流程,初步构建了一个战略大数据系统。
4.1 逻辑结构设计
按照战略研究信息的类型和需求,战略大数据系统包括战略综合信息系统、战略态势环境系统、军事地理信息系统以及空间目标管理系统(图2)。其中,战略综合信息系统可提供文献检索服务;战略态势环境系统可提供有关当前国内外各类战略态势资讯信息,具有极强的时效性;军事地理信息系统不仅能实现通用地图的地理信息查询、标绘,还能将军队编成、武器装备与地理信息三者结合,构成由军队、装备、基地双向查询的链式检索结构;空间目标管理系统以真实物理运动模型模拟各类传感器运动状态,提供三维空间可视化工具。
4.2 功能结构设计
战略大数据系统的功能设计,首先要保证系统的完备、安全,其次开展对基础信息、地理信息以及空间目标的管理(图3)。
图2 战略大数据系统逻辑结构
图3 战略大数据系统功能结构
信息管理包含基础信息管理和地理信息管理,基础信息管理部分对应着战略综合信息管理系统和战略态势环境系统的部分内容。除综合信息系统部分内容可以从原有局域网数据库导入外,其余大部分信息都来源于主题型网络爬虫经过云化ETL后写入云存储空间的数据。地理信息除基础地理信息由地图自带外,有关军队编成、基地、装备等信息均为由既有的结构化信息导入或爬取。战略综合信息系统、战略态势环境系统及地理信息管理模块等3部分最频繁的操作为信息更新及检索,信息更新由主动搜索工具Scrapy-Redis完成,经过数据清洗及分类后采用Hadoop分布式系统架构完成大规模存储及高速计算;信息检索部分由企业级搜索引擎Elasticsearch完成,可满足实时、可靠、稳定的全文检索。
由于数据的复杂性和军事战略研究的特殊性,战略大数据计算挖掘模型需要多领域、多学科交叉共同构建,需要诸如模式识别、机器学习、语义分析、自然语言理解、博弈论、军事战略理论等众多领域知识交叉融汇。
5 战略大数据系统的关键技术及应用
5.1 Scrapy-Redis主动搜索技术
基于Scrapy框架结合Redis组件实现了主题网络分布式爬取,利用布隆过滤器去重,并利用余弦相似度、朴素贝叶斯算法等实现主题信息预分类,最终写入MongoDB非关系型数据库。该搜索系统可由用户自定义时间、抓取规则,并对采集的数据进行自然语言处理,包括抽取关键词、抽取摘要、抽取实体词等,且对已抓取信息进行增删查改并以多种方式输出,抓取信息经过审核后可批量导入数据库。该系统设定了数十种目标网站、上百种抓取规则,实现了战略综合信息管理系统及战略态势环境系统的数据初始化和更新。
5.2 基于知识图谱的ElasticSearch搜索引擎
利用Django与Elasticsearch实现了基于知识图谱的语义检索。ElasticSearch是一个基于Lucene的企业级实时全文搜索服务器,具有实时存储、搜索PB级结构化或非结构化数据的能力。关注军事战略领域信息,基于已有的开源信息,目前已初步构建了数百万条索引记录。随着文本量的逐渐增加,该索引将会以指数级增长。
为提高检索效率及检索结果质量,构建了以“核安全态势”为本体的知识图谱为ElasticSearch服务。利用商业语料库结合中科院分词系统,提取了“核安全态势”相关概念,同时识别了若干未登录词以扩充核领域的分词词典,建立了核领域本体的概念及层次结构关系以及核领域本体类属性[5]。在此基础上,经过知识融合、实体对齐和消歧,初步构建了一个包含语义信息的核领域知识图谱。将知识图谱导入后与ElasticSearch搜索引擎相结合,实现了语义搜索能力。目前,ElasticSearch搜索引擎运用于战略综合信息与军事地理信息2个子系统中,基本能够实现文本与地理信息的全文快速检索。
5.3 文本大数据分析模型
文本大数据分析模型是运用深度学习、逻辑推理等技术,对文本数据进行语义分析、检索及模型构建,辅助实现对战略领域关切事件的分析、重要人物思维模式分析、智库等对政府决策影响力分析等。目前,基于深度学习理论的自然语言处理技术越来越广泛地应用于海量文本分析,使战略研究者从大量文本信息中提炼高价值情报成为了可能。本系统利用基于递归神经网络(RNN)的LSTM模型,以及Seq2Seq+Attention机制建立了一个生成式文本摘要。它可对多文档自动生成理解式摘要,极大地提高了战略研究者获取关键信息的速度。
在战略态势环境系统中,以蔡英文为例,利用文本分析模型进行人物多维度分析。数据采集了蔡英文学习经历、政治经历以及2000年以来公开讲话稿约50篇,通过构建其政治人物关系图谱和进行政治主张数据关联性分析,勾勒出蔡英文是一个集学者、律师、商人三者特性于一身的政客,其亲日、亲绿、冷战思维、危机意识和潜在攻击性特别突出。
6 结语
本文在分析传统战略研究方法和手段无法满足大数据条件下的战略深度的基础上,依据系统设计的物理及逻辑结构设计了一个自底向上的5层体系结构模型。在该体系结构框架下,依据战略研究过程的不同阶段及功能需求设计了一个战略大数据系统。该系统从信息获取、存储、检索及挖掘计算模型构成了较为完整的信息链路,可满足基本的战略研究需求。但战略研究任务艰巨、研究目标数量众多、研究领域交叉性强、制约条件复杂,致使任务驱动型的挖掘计算模型在数量上不能满足日益增长的任务需求,模型算法的效率仍有较大提升空间。如何与现有系统融合、实现数据共享、软件复用等问题都是需要进一步深入研究的。此外,本系统在模型构建、用户交互等方面还有待引入更多的人工智能技术(如语音识别、机器翻译、自然语言推理、情感分析等技术),逐步提升系统能力。