隐马尔可夫模型在公安边防信息化工作中的应用
2019-04-20杜艺卓蒋静
杜艺卓 蒋静
摘 要:公安边防信息化建设存在方法陈旧效率低下,系统零散自动化程度不足,前沿技术应用不够等现象。利用隐马尔可夫模型可以实现检测网络入侵,监控信息化系统运行和开展视频对象异常交互检测等目标。在互联网和人工智能技术不断发展的今天,要实现公安边防信息化水平的不断提升,不能仅仅依靠不断充实的硬件设备,更需要能与硬件相契合的软件,这样才能使信息化系统最大程度地发挥作用。
关键词:公安边防信息化 隐马尔可夫模型 机器学习 人工智能
公安边防信息化建设是国防信息化建设的重要组成部分,是保证国家对外开放和“一带一路”倡议推进和实现强军目标、维护边境地区安全稳定的重要保证。在互联网和人工智能技术不断发展的今天,要实现公安边防信息化水平的不断提升,不能仅仅依靠不断充实的硬件设备,更需要能与硬件相契合的软件应用,这样才能使信息化系统最大程度地发挥作用。
一、公安邊防工作信息化概念及现状
公安边防工作信息化,即依托互联网、大数据和计算机技术,将传统的公安边防业务工作进行重新设计和规划,使得这些工作能够变成电子数据在电子设备上操作和分发,取代传统的手写和邮寄等低效率信息传播方式,提高信息传递速度,并对数据进行整合分析,利用大数据分析等技术,完成过去靠人力无法胜任的工作;在某种程度上能够实现“无纸化”办公,节省资源,提高工作效率。
在互联网技术飞速发展的今天,信息化技术已经成为公安边防工作开展的一项基础技术,支撑了大量的边防业务工作开展。信息化建设已经成为了公安边防工作中重要和不可或缺的一部分。得益于互联网和大数据技术的发展,使得公安边防工作依托信息化得以更进一步地开展,边防业务工作的效率得到了极大提升。
目前在公安边防领域,信息化技术的应用非常广泛,已经深入到基层一线工作中,如办公一体化平台、各类数据分析查询系统等。以内蒙古总队为例,公安边防部门已经实现大部分业务通过公安专网进行开展,使得跨地域跨部门合作的难度大幅下降;基层部队全部配备超短波通信电台,大量监控摄像头,形成对辖区的全方位监控;部署各类信息平台供记录、查询以及文书生成的需要,如户籍平台等。
但是,在人工智能迅猛发展的今天,公安边防信息化建设在软件方面仍然停留在“人工、手动”的程度,在提高了工作效率的同时也限制了进一步提升工作效率的潜力。
软件对于搞好公安边防信息化建设同样重要,尤其是对人工智能,尤其是机器学习技术的应用,是进一步提升工作效率的有效途径。隐马尔可夫模型(HMM)作为存在时间比较长的模型,在计算和应用方面相比当下非常流行的人工神经网络都有独到的优势。在本文中,作者将以HMM为手段,对公安边防业务工作中的几个内容的信息化进行探讨,展现人工智能技术在公安边防领域的应用前景。
二、当前公安信息化工作存在的问题
尽管如今公安信息化工作依托各类信息化技术得到了很大的提升,但是不可否认,公安信息化建设存在发展不平衡问题——在大力推进硬件采购升级的同时,对配套的软件技术应用不足。在人工智能迅猛发展的今天,公安边防信息化建设在软件方面仍然停留在“人工、手动”的程度,在提高了工作效率的同时也限制了进一步提升工作效率的潜力。
(一)方法陈旧、效率低下
在当前的公安信息化工作中,普遍存在工作方式方法陈旧、效率低下的问题:虽然信息化设备在不断更新换代升级,但是在内部业务指导中参考的依旧是“老办法”,没有充分利用现代信息化设备的优势和特点,导致虽然信息化硬件条件与时俱进,但是没有相应带来信息化工作能力的整体提升。
(二)系统零散,整合自动化程度不足
以目前的情况来看,越来越多的信息化数据系统在公安日常工作中扮演重要角色。但是在如今“大数据”时代来临的背景下,社会面数据的重要程度达到了史无前例的高度,然而受公安队伍整体水平影响,部分工作人员对大数据重要性认识程度不足,对数据形式和内容不够敏感等原因,公安机关所掌握的数据普遍存在内容残缺、质量参差不齐、数据细致化程度不高、特定行业数据不足等问题。同时,由于公安工作的特殊性质以及当前社会日益严峻的维稳、治安、反恐形势等问题,迫切需要更多更全更细致的社会数据支持。而当前公安信息化设施及系统对数据的处理能力依旧处于“割裂”状态,多种数据系统“各自为政”,信息流转不畅通,系统之间建立联系困难,数据不能得到有效整合和使用,使得跨系统合作变得异常困难。
(三)高新技术缺位,对前沿技术应用不够
信息化技术的应用能力跟不上技术进步的节奏。随着建设系统越来越多,公安业务人员对系统的操作、使用间衔接又开始跟不上系统建设的步伐,有些单位对信息化技能的考核不能立足实际。在系统建设和运行维护上,能够在掌握信息技术的同时也熟练掌握公安业务的复合型人才缺乏,核心技术掌握在公安系统的极少,信息技术人才有流失的趋势。公安大数据应用不能紧跟形势,理念落后、模型缺乏、研判能力不足。各级公安机关领导和民警对公安信息化的认识仅限于简单增删改查数据的层面,缺乏对业务信息化的更深层次的理解,没有对信息化模型与应用进行进一步的探索。公安业务部门能够获取大量数据、懂公安业务,但是缺乏对数据模型算法的理论知识,缺乏对数据内在规律探索的方法和经验[1]。
笔者将以隐马尔可夫模型为例,结合公安边防相关业务工作对模型算法进行应用,探讨公安业务数据的更深层次应用方法及人工智能模型对业务工作的影响和帮助。
三、隐马尔可夫模型
(一)概念
HMM(Hidden Markov Model)是一种用于预测隐含状态,即不可观测的马尔可夫链的统计模型。其难点在于通过可观测状态推导出隐含状态或者隐含参数。下图所表示的便是隐马尔可夫模型的简易示意图,其中x为马尔可夫链、a为各个状态之间的转移概率、b为隐含状态表现为显状态的发射概率、y则是可观测到的状态。
[KH*2][PS05.EPS;Z3;Y3,BP][TS(][HT5”H][STHZ] [JZ(]图1 隐马尔可夫模型结构示意[JZ)][TS)][KH-1][KH*2]
隐马尔可夫模型所研究的问题虽然穿插于图像识别、人像识别、声音识别,机器学习等,但是总结起来可以概括为如下几类。
1.马尔可夫假设(隐含状态可构成一阶马尔可夫链)
2.时间无关性假设
3.输出独立性假设
对于HMM来说,每个隐含状态H和可观测状态O之间是有一定概率关系的,那么由于是概率关系,所以在进行计算时我们可以明确在进行计算时,当隐含状态一定时,各个隐状态H向可观测状态O转移的概率相加一定是等于1的。
它作为马尔可夫链的一种,其状态不能被直接观察到,而是通过对可以被观察到的状态进行测量,每个观测状态都是由隐含状态通过某些概率密度分布表现出来,每一个观测向量是由一个具有响应概率密度分布的状态序列产生[2]。它是一种用参数表示的方式来描述随机过程统计特性的概率模型,是一个双重随机过程,由两个部分组成:马尔可夫链和一般随机过程。其中马尔可夫链用来描述状态的转移,用转移概率描述。一般随机过程用来描述状态与观察序列间的关系,用观察值概率描述[3]。对于HMM模型,其状态转换的过程是不可观察、隐藏的,因此被称为“隐”马尔可夫模型。
假设现在已经有一个特定的隐马尔科夫模型λ和一个可观察状态序列集。我们也许想知道在所有可能的隐藏状态序列下,给定的可观察状态序列的概率。
假设当给定如下隐藏状态序列:
Q=q1q2…qT
那么在HMM和这个已知序列H的条件下,序列O的概率为:
P O|Q,λ =bq1 O1 bq2 O2 …bqT OT
而序列H在HMM条件下的概率为:
P(Q|λ)=πq1αq2q2αq2q3…αqT-1qT
因此,序列H和序列O的联合概率为:
P(O,Q|λ)=P(O|Q,λ)P(Q,λ)
于是在所有的序列H上,出现序列O的概率为:
P(O|λ)=∑ allQ P(O|Q,λ)P(Q,λ)
(二)适用领域
利用隐马尔可夫模型,一般可以解决以下几类经典的问题。
1.解码问题。给定可观察序列O和模型λ,计算在模型确定的条件下输出可观测序列最可能的隐含序列Q。该问题用于寻找符合观测结果的情况下最可能的真实隐含状态情况,如根据传感器数据推断最可能的天气状况[4]。
2.估值问题。给定可观察序列O和模型λ,计算在模型确定的条件下输出可观测序列的概率P(O|λ)。该问题可以看作是评价一个模型与观测结果的匹配程度。
3.学习问题。给定可观察序列O,计算模型λ的各项参数,使得出现给定可观察序列的概率,即P(O|λ)最大。该问题用于寻找对已经观测到的结果的最佳描述,通常用于对现实数据进行拟合,以判断模型参数是否能够尽可能准确反映观测结果。
文中笔者介绍的若干中应用将采用估值问题和学习问题算法相结合的方式,首先对模型参数进行寻找和调整,再利用估值算法对真正的业务目标进行预测并输出结果。
四、模型在信息化工作中的应用
由于隐马尔可夫模型在数学上形式简单,计算量相比于当今比较流行的人工神经网络等模型有明显优势,节省硬件计算能力,使得同等硬件条件下,隐马尔可夫模型取得预期效果所需的成本较低,符合公安信息化工作中对节约资源的要求。本文将从公安信息化工作中选取四个方面进行分析,提出该模型在此类问题中的应用合理性及可能性。
(一)检测网络入侵
公安内部网络与互联网高度隔离,但是由于人为失误等各种各样的问题,公安网络频繁遭到网络入侵,如2017年的“永恒之蓝”事件,给公安业务工作造成了巨大损失。网络安全防范是公安信息化工作中的核心任务之一,是保障公安业务各项工作顺利开展的重要保证,维护网络安全,防范网络入侵,是当今公安系统乃至整个互联网行业重点攻坚的课题。公安系统内部现有的网络安全防范技术目前仍停留在购买外部现成方案的水平,主要依托硬件防火墙等措施,软件建设不足,缺乏及时更新能力,对新型入侵缺乏防护,不能及时防御。
利用HMM进行网络入侵检测首先是由Juan M. Estevez Tapiador在他的一篇2011年发表的文章Das K. Protocol Anomaly Detection for Network-based intrusion Detection中提出的。他认为在网络入侵领域虽然入侵方式多变,类型难以捕捉,但是TCP数据包在正常状态下有唯一确定的值来加以标记识别,因此便可以将网络状态分为正常与不正常两类,根据正常数据训练得到协议模型,而后通过训练模型进行检测,凡是偏离该模型的序列都可以认为是异常状态,即存在入侵行为。
根据HMM的基本原理,在知道观测数据的情况下运用BW算法建立模型得到必要的λ=(N,M,A,B),然后运用Viterbi算法,通过已知的观测状态和算出来的λ=(N,M,A,B)进行推测,得出最有可能形成现有观测状态的隐含状态,即是否为攻击类型。
(二)监控信息化系统运行状况
在公安信息化工作中,对信息化设备和系统的运行维护是所有工作中的重中之重,设备和系统的运行健康程度关系到系统是否正常运行,关系到相关业务能否正常开展。现有公安系统运维技术主要依靠运维人员的经验,在面对问题时难以及時发现问题真正所在,错过最佳解决时间,对正常业务工作造成影响。本文中笔者提出一种利用隐马尔可夫模型对系统运行进行自动化监测并及时发现判明问题的方案,实现运维工作部分自动化,减轻人员压力,提高运维效率。
利用隐马尔可夫模型对系统运行状况进行监控同属于异常检测范畴。在计算机系统运行过程中,计算机程序运行时所处[HJ]的状态千变万化,难以采样和捕捉。但是从操作系统层面上来看,操作系统在一段时间内所运行的程序数量是有限的,而应用程序在调用系统功能的时候所进行的操作(即系统调用)是相似的。通过对一系列或某个特定的应用进程的系统调用进行采样处理,通过数据对HMM进行训练,并对数据进行预测,就可以得知该应用程序是否处在非正常状态下。
1.提取数据,将进程的系统调用记錄采样,并由于进程状态已知而建立标签,该数据将作为模型的训练集。
2.将系统调用序列视为可观测序列O,将进程状态视为隐含序列I,先对HMM模型进行预估,并利用梯度递减算法和训练数据对模型进行训练学习。
3.在模型误差小于一定阈值之后,将其对测试数据进行测试和实际使用。
对系统行为进行建模,可观测序列O(O1O2O3…)为某个进程中的系统调用采样,隐含状态序列为被采样应用程序所处的运行状态,由此对模型参数λ=(A,B,π)进行估值,在经过反复训练后得到准确率相对较高的模型,并用此模型对后续状态进行预测。
(三)视频对象异常交互检测
在公安各项业务工作中,视频监控都扮演着重要角色,因为视频监控图像能够为案件侦破等工作提供大量信息,帮助人员进行决策。但经过多年的发展,视频监控的作用仅仅停留在由工作人员逐条观看的层次,几乎没有更多的应用方式被发掘。由于人本身的先天不足,在面对大量的监控录像需要查看的时候,工作人员的查看速度成为了效率的瓶颈,由于警力有限,在面对大量的监控资料时,监控查看的效率无法有效得到提升。因此要想提高监控录像的利用效率,就要从效率的关键处下手,将部分原本只能由人来做的工作交给计算机来做,从而提高效率,例如这里讨论的利用计算机算法自动识别视频中的异常行为。
检测人体的异常行为需要能够理解人体单个部位的微动作,因此我们需要将人体分割成有意义的各个部位。成功将人体分割成有意义的各个部位之后,我们就可以将视频中人体的异常动作分解为不同部位、不同时间点姿态序列[5]。
根据隐马尔可夫模型定义,姿态序列是可知的、可观测的,因此将姿态序列作为可观测序列,而姿态序列背后的人体行为是我们要检测的目标,是未知的,因此作为隐藏状态序列。通过设定姿态序列的长度,对模型进行训练。模型的隐含状态数即行为种类数,是根据预先设定的目标得出的,在确定训练样本之前,首先要确定,该模型预期能够识别多少种行为,如推搡、击打、拥抱等。
确定训练样本之后,我们首先使用最大似然估计求出模型λ=(A,B,π)的参数,再利用模型计算每种行为的概率,即根据可观测序列O和模型λ,计算可观测序列的最大概率P(O|λ)。每种人体行为都对应一个模型,整个系统最后的分类判别是通过对所有种类模型的概率P(O|λi)进行计算,最终选出概率最高的模型,所对应的行为种类即为最终预测结果。
以上笔者提供了若干种将HMM模型应用到公安信息化工作中的方案,但将人工智能技术运用于公安业务工作的潜力和价值远不止于此。人工智能技术的核心目标在于模仿人类可以做的,并达到人类做不到的高度,从而在这些领域中为人类工作提供前所未有的效率提升。不论是本文中提到的隐马尔可夫模型,还是当前最热门的人工神经网络模型,都能够解决语音图像识别、趋势预测、推荐系统等领域的大量实际问题,在许多大型互联网公司都有着大量的生产实践经验,在技术层面已经足够成熟,现在缺少的就是和实际工作的有效结合。笔者在此提出了隐马尔可夫模型在公安信息化工作中的几种可行方案,以期为未来的公安系统信息化工作发展方向提供参考和借鉴,帮助信息化工作在未来能够充分利用人工智能技术带来的便利,使得信息化工作能够向着更高端、更可靠、更有效的方向不断发展。
参考文献:
[1]刘向荣,农忠海,侯文雷.公安信息化发展及现状概述[J].数字通信世界,2018(07):31-32.
[2]罗宇,杜利民.基于隐马尔可夫模型局部最优状态路径的数据重建算法[J].电子与信息学报,2004(5):722-726.
[3]何彦斌,杨志义,马荟,等.一种基于HMM的场景识别方法[J].计算机科学,2011(4):254-256.
[4]黄岗.马尔可夫及隐马尔可夫模型的应用[J].电子设计工程,2013,21(17):60-62.
[5]苏野.视频场景中人体异常交互行为检测[D].南京邮电大学,2017.