APP下载

采用深度置信网络的恐怖袭击事件量化分级研究

2019-10-11赵芸赵敏

软件导刊 2019年7期
关键词:降维恐怖袭击数据处理

赵芸 赵敏

摘 要:恐怖袭击不但会造成大量人员伤亡和财产损失,还会造成群众恐慌,对社会稳定有很大影响。旨在从数据分析角度,依据相关数据对恐怖袭击中蕴藏的信息加以分析,为防恐反恐提供有用信息。针对基于危害的恐怖袭击事件分级,根据GTD上1998-2017年数据信息进行数据提取,考虑到很多变量大面积缺失数据,首先对这些变量的重要性作简易评估并进行删减,然后对数据进行清洗和补充,最后根据特征提取和降维后的数据,分出事件对应的恐怖袭击级别。结果表明,深度学习中的深度置信网络(DBN)可以用于提取和减少预处理数据,且DBN可自动实现上述功能,无需太多人为干预。

关键词:数据处理;恐怖袭击;深度置信网络(DBN);特征提取;降维

DOI:10. 11907/rjdk. 182618 开放科学(资源服务)标识码(OSID):

中图分类号:TP319文献标识码:A 文章编号:1672-7800(2019)007-0173-04

A Quantitative Hierarchical Study of Terrorist Attacks

Using Deep Belief Networks

ZHAO Yun, ZHAO Min

(School of Photoelectric Information and Computer Engineering,

University?of?Shanghai?for?Science?and?Technology, Shanghai 200093,China)

Abstract:The occurrence of terrorist attacks will not only lead to a large number of casualties and losses of property, but also cause public panic, which has a great impact on social stability and hinder people's normal work and life order. This paper aims to analyze the information contained in terrorist attacks from the perspective of data analysis according to relevant data, so as to provide useful information for counter-terrorism and counter-terrorism prevention. In view of the classification based on the harm of terrorist attacks, we first extract the data from 1998-2017 according to the GDT (Global Terrorism Databas), considering there are many variables the missing data of large area, so we first make a simple assessment of the importance of these variables, subtract them, and then clean and supplement the data. Finally, we distinguish the level of terror attack corresponding to part of the incident according to the feature extraction and dimensionality reduction data. The deep belief networks (DBN) in deep learning can be used to extract and reduce preprocessing data. DBN can do this automatically without much human intervention.

Key Words: data processing; terrorist attacks; deep belief networks (DBN); feature extraction; dimensionality reduction

作者简介:赵芸(1993-),女,上海理工大学光电信息与计算机工程学院硕士研究生,研究方向为数据分析;赵敏(1979-),女,博士,上海理工大学光电信息与计算机工程学院讲师,研究方向为预测控制分析。

0 引言

自從“9.11”恐怖事件发生至今,恐怖主义袭击给各国人民带来了巨大痛苦,人民生命、财产安全和地区稳定受到严重威胁。据官方报道统计,仅2014年一年的恐怖袭击事件就达到了16 818起,100多个国家深受恐怖主义威胁和伤害[1]。目前,恐怖袭击事件已成为全球和平与地区稳定的主要威胁,并引起了世界各国关注。但是,随着记录恐怖袭击事件的数据规模越来越大,如何从大量数据中提取隐藏信息,根据灾害对恐怖袭击事件进行分类,并根据事件特点发现恐怖袭击事件的制造者,从而对未来反恐态势进行可行性分析,成为需要认真思考的重要问题。

近些年,一些文章用定量分析方法对恐怖袭击相关问题进行研究[2]。还有一些学者利用博弈论识别恐怖网络中的关键恐怖分子,由Shapley值衡量合作博弈的重要性,以及将博弈论的中心测量法用于更好地说明互连子网络之间的强度大小,并对其作敏感性分析,从而对恐怖袭击事件进行分类[3,4]。上述研究使用更多定量分析方法研究恐怖主义事件,并提供减少恐怖主义或灾害损失发生的可能性,但是对以往发生的恐怖袭击事件分级研究文章较少。因此,本文通过研究深度置信网络(Deep Belief Networks,DBN)为恐怖袭击分级研究开拓一种新思路[5]。

针对目前GTD(Global Terrorism Databas,全球恐怖主义数据库)的恐怖袭击事件,本文对以往发生过的恐怖袭击事件进行分级[6]。人们以往对灾难性事件比如地震、交通事故、气象灾害等进行分级是社会管理中的重要任务,通常评分一般采用主观方法,权威组织或部门选择几个主要指标,强制性规定分级标准,如国家《道路交通事故处理办法》第6条关于交通事故的标准分类,主要根据人员伤亡和经济损失程度划分。然而,恐怖袭击事件的危害不仅取决于伤亡和经济损失两个方面,还取决于时间、地理位置、目标指标和许多其它因素,因此难以通过使用上述分类方法形成统一标准。基于GTD历年数据和其它相关信息,结合现代信息处理技术,采用DBN建立基于数据分析的量化分级模型[7,8]。本文选取几个事件按危害程度分为5级,并表示每一个事件的级数。

1 数据处理过程

1.1 数據预处理

数据预处理流程见图1。

图1 数据预处理流程

1.2 数据筛选

参数选取原则是掌握主要特征的实用性和可行性。恐怖袭击与多种因素有关,使用一些指标描述恐怖事件且不错过有用信息是一种两难选择。对恐怖事件进行分级时,应主要考虑发生时间、地点、武器类型及受害者类型等。所选变量应捕获主要特征,并应尽可能多地使用信息,但所选参数不应过多。因此,有必要预处理1988-2017年的海量数据。

剔除不能用数学模型进行处理的文字信息以及与题目相关性不大的信息,如地名、犯罪组织名称、事件描述、攻击类型、攻击武器等,在初始数据135类信息中筛选出29类与题目相关且重要的数据信息。

1.3 数据清洗

数据清理指删除、改正数据库错误、数据缺失、格式错误和冗余数据。数据清理不但是为了改正错误数据,而且是为了使每个来自单独系统的数据一致性更强,也是为了后期数据处理更方便快捷。数据清洗包含两个方面:处理缺失数据和处理异常数据。

针对缺失数据,通常思路是使用其它可选值进行替代。当缺失数据量很小时,可以采取人工填充方式,使用具有特定意义的常量进行填充,如0等;也可使用均值进行填充,如使用与该属性相同的数据均值填充,或对数据进行分类后使用同类数据均值进行填充。

针对异常数据(通常指那些偏离随机变量分布的数据和错误数据),一般采取如下方式:①分桶法,首先将有序数据存储在不同桶中,并使用相邻数据的平均值、中值、边界值代替异常数据;②回归法,使用回归函数拟合替代错误数据;③聚类法,通常采用聚类函数对数据进行聚类,错误数据往往是某些离群点,从而可以选择剔除该数据或对其进行替换。

在本体数据清洗过程中,考虑到相关数据有很多变量大面积缺失,因此对这些变量的重要性作简易评估,进行删减,然后对数据进行清洗和补充。主要对某些变量中的空白项,权衡变量特性后,根据均值、众数填充或补零的方法对数据进行清洗。通过清理得到29组具有代表性的数据,如表1所示。

表1 清理后数据类型

2 DBN建模

2.1 DBN模型简介

DBN在2006年主要由Hinton[9]提出,已被广泛用作深度学习模型,并且在图像和语音识别领域应用非常广泛。首先从结构上说,多层没有监督的受限波尔兹曼机(Restricted Boltzmann Machine,RBM)和一层有监督的反向传播(Back-Propagation,BP)构成了DBN,如图2所示。

DBN的训练包括“预训练(Pre-Training)”和“微调(Fine-Tuning)”两部分。在预训练阶段,DBN以分层训练模式训练每一层RBM,并且将下一层RBN隐藏层的输出当作上一层RBN可见层的输入。

在微调阶段,使用监督学习方法对最后一级BP网络进行微调,并且实际输出值与预期输出值的误差是反向一层一层传播的[10-17]。

2.2 受限玻尔兹曼机(RBM)

RBM是一个基于能量的模型EBM(Energy-Based Model),由可见层和隐藏层组成。如图3所示,[v]、[h]为可见层和隐藏层,[w]表示可见层与隐藏层之间的连接权重。对于可见和隐藏层,连接关系是所有神经元连接在层之间,并且层内无神经元连接。

图3 RBM原理

设可见层和隐藏层都是二进制量,其中神经元分别为[I]、[J]个,并且[vi]、[hi]表示第[i]和第[j]个可见层与隐含层神经元。对于集合([v],[h]),RBM作为系统能量,定义为:

[E(v,h|θ)=-i=1Iaivi-j=1Jbihi-i=1Ij=1Jwijvihj]      (1)

其中,[θ=(wij,ai,bj)]是参数,[wij]为可见层节点[vi]与隐含层节点[hi]的偏置值。由能量函数可得到[(v,h)]联合概率分布。

[p(v,h|θ)=e-E(v,h|θ)/Z(θ)]         (2)

其中,[Z(θ)=vhe-E(v,h|θ)/Z(θ)]是归一化项。实际运用时,最重要的是RBM下的观测变量分布,[p(v|θ)]也称似然函数,即联合概率[p(v,h|θ)]的边缘分布。

由于RBM层内神经元无连接的特殊结构,当可见层节点给定时,每个隐含层节点之间激活状态互不相干,则第[j]个隐含层节点的激活概率为:

[p(hj=1|v,θ)=σ(bj+i=1Iviwji)]    (3)

其中,[σ(x)=1/(1+e-x)]为sigmoid函数。同样,当隐含层节点给定时,第[i]个可见层的概率为:

[p(vi=1|h,θ)=σ(ai+j=1jhjwji)]     (4)

RBM以迭代式训练,其目标是为了导出参数[θ=(wij,ai,bj)]的值,以适应给定的训练数据。可以求训练集上最大对数的似然函数,得到参数(设样本为[T]),即:

[θ*=argθmaxL(θ)=argθmaxt=1Tlnp(v(t)|θ)]     (5)

由Hinton[9]提出的对比散度(Contrastive Divergence,CD)算法更新参数:

[Δwij=ε(vihjdata-vihjrecon)]     (6)

[Δai=ε(vidata-virecon)]        (7)

[Δbj=ε(hjdata-hjrecon)]       (8)

其中,[ε]為Pre-Training的学习率,[?data]是定义训练数据级分布的数学期望,[?recon]是重新定义之后模型分布的数学期望[18]。

2.3 BP网络

BP网络是一个分类器,具有监督功能[19,20]。其中,特征向量的输入逐层传入输出层,以获得预测的分类类别。将实际分类结果与预期分类值进行比较以获得错误值,然后逐层返回以微调DBN参数。反向传播需要计算每一层[δ],即灵敏度,并使用从上到下传递的权重参数修改网络。

对于输出层,[oi]第[i]个节点的实际输出为所需输出,则[δ](灵敏度)的计算公式为:

[δi=oi(1-oi)(di-oi)]     (9)

对于隐含层[l],[δ](灵敏度)的计算公式为:

[δli=yli(1-yli)jwlijδl+1j]     (10)

在计算每一层之后,根据式(11)、(12)更新DBN的网络权重。

[wlij=wlij+εfine-tuning×yliδl+1j]   (11)

[blj=blj+εfine-tuning×δl+1j]   (12)

3 实验过程

3.1 实验环境

Matlab是一款专业数学软件,功能强大,应用场景广泛[21]。本文基于Matlab中对恐怖袭击的定量分级进行模拟。

3.2 主要过程

图4是模型主要流程。

图4 基本流程

主要步骤:

(1)通过数据筛选和数据清理之后,将原始数据中135个变量信息处理至29个具有代表性的变量信息。

(2)采用深度置信网络(DBN)对数据进行特征提取和降维,深度置信网络可自动实施上述功能,而无需太多人为操作[21]。筛选出地理位置信息(精度、维度)、时间(日、月)后,得到了25个代表变量信息,并对特征值进行排序,如表2、图5所示。

表2 特征值排序

图5 25类数据信息的特征值排序

通过K-means方法调用K-means函数对所有恐怖袭击事件进行聚类分析,得到所有恐怖袭击事件的危险程度分级(5级)。将表1中挑选的10个事件同危险程度分级进行匹配后,得到其危害级别,如表4所示(事件编号是根据GTD中数据信息选取的部分数据编号)。

表4 典型事件危害级别

4 结语

本文采用深度置信网络(DBN)对非线性数据进行降维、特征提取,并且对历年恐怖袭击事件进行分级,在Matlab中调用深度置信网络可自动实现上述功能,而无需太多人为操作。本文研究仅提取一些事件进行分析,主要是数据处理,为预测恐怖事件和防止恐怖袭击奠定了基础。下一步研究可从时间特征中找到恐怖袭击概率高的地区,更好地防止恐怖袭击发生。

参考文献:

[1] 傅子洋,徐荣贞,刘文强. 基于贝叶斯网络的恐怖袭击预警模型研究[J]. 灾害学,2016,31(3):184-189.

[2] FRIEDMAN N,GOLDSZMIDT M,WYNER A. On the application of the bootstrap for computing confidence measures on features of induced Bayesian networks[J]. AI & STAT,1999(7): 189-208.

[3] 赵国敏,刘茂,张青松, 等. 基于博弈论的地铁车站恐怖袭击风险定量研究[J]. 安全与环境学报, 2006, 6(3):47-50.

[4] MAJOR J A. Advanced techniques for modeling terrorism risk[J]. Journal of Risk Finance, 2002,4 (1):15-24.

[5] 王雷,王欣,赵秋红. 基于和声搜索算法优化支持向量机的突发暴恐事件分级研究[J]. 管理理论,2016,28(8):125-132.

[6] LINDELAUF R H A,HUSSLASGE B G M. Cooperative game theoretic analysis of terrorist networks: the cases of Jemash Islamiyah and AI Qaeda[J]. European Journal of Operational Research,2013,229(1):230-238.

[7] 王振,刘茂. 定量风险分析在恐怖袭击风险评估中的应用[J]. 公共安全, 2006(7):18-22.

[8] 张亚军,刘宗田,周文. 基于深度信念网络的事件识别[J]. 电子学报,2017(6):1415-1423.

[9] HINTON G E,SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks [J]. Science,2006,313(5768): 504-507.

[10] YU D, DENG L. Deep Learning and its applications to signal and information processing[J]. IEEE Signal Processing Magazine,2011, 28(1):145-154.

[11] AREL I,ROSE C,KARNOWSKI T. Deep machine learning-a new frontier in artificial intelligence[J]. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18.

[12] BENGIO Y. Learning deep architectures for AI[J]. Foundation and Trends in Machine Learning, 2009, 2(1): 1-127.

[13] BENGIO Y,COURVILLE A,VINCENT P. Representation learning: a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.

[14] ANTHES G. Deep learning comes of age[J]. Communications of the ACM,2013,56(6):13-15.

[15] JONES N. The learning machines[J]. Nature,2014,505(7428): 146-148.

[16] 胡晓林,朱军. 深度学习:机器学习领域的新热点[J]. 中国计算机学会通讯,2013,9(7):64-69.

[17] 余凯,贾磊,陈雨强,等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展,2013,50(9):1799-1804.

[18] 吕启,窦勇,牛新,等. 基于DBN模型的遥感图像分类[J]. 计算机研究与发展,2014,51(9):1911-1918.

[19] 陈翠平. 基于深度信念网络的文本分类算法[J]. 计算机系统应用, 2015, 24(2):121-126.

[20] HINTON G E,OSINDERO S,THE Y. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1554.

[21] 刘亮,刘君,尹斐. 基于MATLAB环境的实时仿真研究[J].微计算机信息,2006,22(7):250-252.

(责任编輯:何 丽)

猜你喜欢

降维恐怖袭击数据处理
混动成为降维打击的实力 东风风神皓极
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
欧洲之恐:欧洲可以迅速扑灭恐怖袭击,但仍做不到防患于未然
降维打击
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
英国警戒级别提到“次高”
抛物化Navier-Stokes方程的降维仿真模型
基于特征联合和偏最小二乘降维的手势识别
基于POS AV610与PPP的车辆导航数据处理