APP下载

面向公安大数据的特征搜索原型系统设计

2016-10-24广州市公安局吕益民

电子世界 2016年18期
关键词:搜索

广州市公安局 吕益民

北京仿真中心 湛浩旻 马 川

北方工业大学 戴 澜

面向公安大数据的特征搜索原型系统设计

广州市公安局吕益民

北京仿真中心湛浩旻马川

北方工业大学戴澜

本文对大数据应用的发展现状和广州公安视频数据进行分析,发现在进行特征搜索时,主要是通过人工手段,并且在遇到模糊图像时无法人工辨别,造成特征搜索的误判断。针对此问题,本文从公安大数据入手,使用图像超分算法、并行处理技术以及数据仓库技术,完成了面向公安大数据的特征搜索原型系统设计。该原型系统设计能够满足日常特征搜索的环境假定,并对系统的实际建设起到规划和指导作用。

公安大数据;特征搜索;原型系统;Hadoop;图像超分辨率

1.引言

美国互联网数据中心研究指出,近年来互联网数据以年增长50%的速度快速增长,并且目前世界上90%以上的数据是近几年才产生的,数据增长呈现爆照行增长趋势,面对如此海量数据,如何提高数据分析和处理能力极为迫切。在国家“十三五”规划纲要中明确提出全面实施促进大数据发展行动,把大数据作为基础性战略资源,加快推动数据资源共享开发和开发利用,助力产业转型升级和社会治理创新。

作为大数据应用的重点领域,大数据在公安系统的审计[1]、情报[2,3]以及警务平台[4]方面都有应用,公安大数据的数据分析和数据应用,对社会稳定和治安。公安业务领域中治安系统、智能交通视频数据呈爆发性增长,具有非结构化等大数据典型特征,也是政府部门重要的信息资源。各类视频监控系统仍在进行补充建设及高清化处理能力,预计未来广州市公安业务领域每天将产生PB规模的视频及图像数据。面对海量的公安业务数据,面临以下难题:⑴从海量数据中获取支持公安业务的关联特征;⑵对公安视频类大数据进行高效组织、智能分析处理;⑶如何应用大数据辅助公安人员快速开展治安防控、警情研判及指挥决策;同时,如何发掘公安信息资源价值,提高公安大数据的利用率也是当前公安大数据应用关注的重点问题。

目前公安大数据处理方式采用的方式一般是人工比对图像特征,工作量大,容易产生视觉疲劳,遗漏数据;对于清晰度不高等图像质量差的影响无法进行比对;数据搜索效率不高。鉴于此,针对公安领域视频、图像数据规模大、数据关联性强等特点,亟需构建公安大数据的特征搜索系统。本课题组从广州市公安大数据入手,采用图像超分算法,结合数据仓库技术以及面向多数据类型的Hadoop和MapReduce的并行处理技术,完成了面向公安大数据的特征搜索原型系统设计。

2.相关技术

2.1大数据

大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合[5]。业界将其归纳为4个“V”——Volum、Variety、Value、Velocity,即具有4个典型特征:第一,数据大体量巨大,从TB级别跃升到PB级别;第二,数据类型繁多,网络日志、视频、图片、位置信息等等;第三,价值密度低,以视频为例,连续不间断监控过程中,可能有用数据只有几秒;第四,速度快,俗称“秒级定律”,即速度要求很高,一般要在秒级时间给出分析结果,时间太长就失去价值[6]。目前大数据的研究和应用已成为各行业数据研究的重点。

2.2Hadoop和MapReduce

大量的并行处理并非新概念,但随着低沉本的中心处理器和个人电脑出现后变得可行。这种方式之前无法广泛运用是因为技术实现的局限性。针对集中处理模式,设计分布式的算法和解决方案是困难的。然而,“搜索”将在这个问题抛向了分布式处理。例如Google、Facebook以及Yahoo之类的社会化媒体组织所要面对的互联网数据量需要使用分布式文件系统(例如Hadoop),可以将跨物理设备的数据识别为一个数据集,同时仍知道数据所在的位置以便于分发处理。

Hadoop和MapReduce解决方案也需要将处理的请求分解,然后重组各个结果。这些分解和合并步骤由MapReduce完成,MapReduce也可以归类为业务流程甚至数据整合工具。由某个程序员定义需要在所有分布式数据服务器上执行哪个功能,MapReduce擅长执行功能的分配以及结构的配合。Hadoop和MapReduce通常以批处理模式来实现。实施搜索和分析是基于预处理结构集进行的,而不是绝大的原始数据。经常使用Hadoop文件架构的是网络日志和网络数据,这些被认为是非机构化的数据。

2.3超分辨率重建

目前,数字图像采集技术已被广泛应用于公安、军事与医疗等领域。由于价格成本因素限制,获取的图片质量与分辨率较低,往往不能满足实际的要求。超分辨率重建就是利用一系列相似的低分辨的图像,经过超分辨率技术的处理,可以得到一幅分辨率较高、包含信息较多的图像的过程。采用超分辨率技术可以在不更换原有设备的前提下,提高图像的分辨率、改善图像的质量。超分辨率技术用途较为广泛。在数字电视领域,可以利用超分辨率重建技术将数字电视信号转化为与高清晰度电视接收机相匹配的信号,提高观众的体验。在医疗领域,提高医学图像的分辨率,可以帮助医生做出正确的诊断。在军事、气象领域,通过侦查卫星与气象卫星获得图片的分辨率通常难以达到人们期望的分辨率级别,使用超分辨率技术,通过对观测结果做后期处理,可以更好地识别目标,更好地服务于军事安全和日常生活。

超分辨率重建的核心思想就是用时间带宽(获取同一场景的多帧图像序列)换取空间分辨率,实现时间分辨率向空间分辨率的转换。超分辨率重建通过融合多帧相似的低分辨图像提高分辨率。多帧的低分辨率图像是对同一场景偏移一定角度或位置采样的结果。对超分辨率的理解,首先从图像的成像模型去考察。假设原始图像可以看作高于奈奎斯特频率采样的结果,得到的低分辨率图像,低分辨图像是高分辨率经过降采样,模糊,变形后加上噪声的影响的结果,这样超分辨率重建可以总结为图像复原模型,因此超分辨率重建本质上是图像复原问题。

2.4ODDS数据搜索引擎

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从本地或异地网络上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户建设相关的信息展示给用户的系统。搜索引擎一般包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。ODDS搜索是当前新兴起的搜索产品,具备广泛搜索、绝对匹配、结果中搜索、拼音搜索和逻辑所有等功能。此外,还具备按权限搜索、结果评估、基于Web的管理界面、分布式处理能力、智能搜索框以及分布式处理能力。

3.原型系统设计

3.1架构设计

面向公安大数据的的特征搜索演示系统采用大数据技术、图像超分技术以及数据仓库技术,以公安大数据为核心开展案件侦破辅助工作,并在此基础之上运用有关数据挖掘技术实现数据分析工作。该演示系统由基础平台层、数据支撑层、服务支撑层以及数据应用层四部分组成,如图1所示。

图1 公安大数据特征搜索演示系统设计

基础平台层:系统赖以运行的基础软硬件平台,包括网络资源,硬件资源,中间件,搜索引擎等,为结构化、半结构化以及非结构化数据的运行提供支撑。

数据支撑层:包括数据仓库,将视频图像数据利用超分技术进行数据预处理,构建数据仓库和数据集市,为决策支持提供数据分析。

服务支撑层:为系统提供统一的数据分析功能,功能包括关联分析、多维分析和轨迹分析等,并提供数据交换和查询接口。

数据应用层:主要提供面向公安大数据有关特征搜索的各项应用,人员活动轨迹绘制,车辆行驶轨迹,以及辅助案件侦破的决策支持。

总体架构设计依照SOA的架构设计思想,以服务为核心,提供标准化的服务接口、服务组件和服务访问方式,以重用为原则,尽可能的实现服务在整个大数据平台所承载的各类应用中的重用;面向部门和个体提供不同的数据服务需求。

3.2数据仓库设计

3.2.1数据分类与处理

根据数据来源对数据进行分类,将来源于关系数据库的数据和各种视频数据进行分开处理。对于模糊的视频图像数据还需要额外进行超分处理。

3.2.2数据抽取

将出入境系统、普通人员管理系统、特殊人员管理系统、宾馆住宿系统、卡口系统、证照管理系统以及车辆管理系统等应用系统的数据,通过ETL工具抽取到数据仓库中,其中,在数据抽取过程中,为了提高数据质量,会进行大量的数据清洗和转换工作。

3.2.3数据建模

根据不同的主题对数据进行分类建模,根据应用将数据仓库的分为各类票务主题数据、普通人员主题数据、特殊人员主题数据、宾馆住宿主题数据等多个主题数据。数据建模如图2所示。

图2 数据仓库设计

3.3数据查询设计

3.3.1结构化数据查询

⑴主键查询

大数据系统中,数据量巨大,不能用关系型数据库的方式随意做二级索引,表关联。大数据最常用的方式是主键查询。对于千亿规模的大表,主键点查询应该是豪秒级响应。

⑵主键扫描查询

主键也可以批量查询,就是主键扫描查询。给出一个主键的范围,可以迅速的查询到结果。对于千亿规模的大表,主键扫描查询应该是豪秒级响应。

⑶组合条件查询

对于不是太常用的非主键查询,可以通过兼容SQL语法的方式来查询。查询效率不是太高,响应时间为几十分钟,甚至几个小时。

3.3.2结构化数据查询

⑴支持分布式搜索引擎

输入服务器可以根据输入压力动态增加和删除,也可以在线维护故障服务器。

⑵自动镜像查询服务器

当查询和分析压力很大的情况下,增加镜像节点,系统可以自动的扩展性能。

⑶支持各种搜索方式

搜索方式包括关键词搜索、按时间段搜索、自动摘要、自动分类、自定义相关度。

⑷支持搜索框智能

关键词推荐、同义词和替代词搜索、拼音搜索、多种搜索框分词方式、人工排名。

3.3.3分析算法

⑴关联规则发现

运用FP-Growth算法,根据一批事件数据发现其中目标的关联关系,或者根据历史数据发现一个事件发现后另外一个事件发生的概率。

⑵相似度关联分析

通过向量相似度计算,实时发现相似数据,经常应用在语义去重等方面。

⑶自学习分类系统

运用Bayes分类算法,通过已知样本集确定分类规则,建立实时分类引擎,并且不断的自动优化样本集,分类引擎会越来越精确。在数据语义分析方面有非常多的应用。

⑷用户行为分析系统

通过Taste推荐引擎,运用预先定义的用户行为模型,在海量数据中找出符合行为模型的信息。

4.特征搜索演示

基于已知情报信息和视频大数据,搜索和发现案件嫌疑人通过在案发前后时间的行为轨迹和线索,辅助提高民警借助大数据平台的办案能力。

4.1环境假定

⑴系统。卡口系统,嫌疑人管理系统,人员管理系统,出入境管理系统,车辆管理系统;

⑵设备,卡口摄像头、治安摄像头逃逸车辆;⑶事件,抓捕逃逸车辆的司机。

4.2事件假定

⑴逃逸车辆行驶路线被监控摄像头采集到;

⑵可以根据监控信息反应逃逸车辆的行驶轨迹;

⑶监控摄像头采集到了不同角度、不同清晰程度的逃逸车辆和车辆乘客的图像信息;

⑷可以根据车上乘客的图像信息在嫌疑人管理系统或人员管理系统中找到体貌体征类似的嫌疑人群。

4.3应用技术

数据检索,图像比对,图像超分辨率,机器学习、系统辨识和训练模型理论,实现特征的快速定位。

4.4应用场景

⑴办案人员在搜索框中输嫌疑车辆的车牌号(结构数据)、车形特征(非结构化),检索出该车辆在一段时间内出现的地点以及该车辆的卡口图像信息(按清晰度排列);

⑵办案人员通过搜索得到了嫌疑车辆的图像资料集合,同时找到了可能是该车辆的正面图像,办案人员查看该图像时,系统将默认对图像资料进行超分辨率处理;

⑶为办案人员提供更清晰的车上人员图像,办案人员截取车上人员图像并在搜索器中通过该图像搜索并锁定嫌疑人范围。

5.结论

本文提出面向公安大数据的特征搜索原型系统设计,有利于特征提取、人车分离、特征比对、内容检索等功能,提高业务人员的工作效率;为案件流程管理、物证分析等提供有效手段,从日常事件管理到立案、侦查取证、分析案件、确定侦查方向、制定侦查方案、认定犯罪嫌疑人、破案,对这一系列业务流程及业务中所产生的相关物证、信息进行管理。将图像数据的超分算法、数据搜索引擎工具和数据仓库技术进行了有机集合,设计出的演示系统针对性强,可靠性高。

下一步工作,依据公安实际问题的处理,构建面向公安大数据的特征搜索演示验证系统,经过演化个改进,最终形成一个能够真正使用的应用系统,大大提高案件侦破效率和成功率。

[1]张永春,等.大数据背景下公安审计增加组织价值研究——以江苏省公安审计部门为例[J].中国内部审计,2015(03).

[2]李建辉,陈俊旭与单一唯.大数据对公安情报流程影响研究[J].湖北警官学院学报,2015(03).

[3]李毅,刘兴川与孙亭.基于大数据的公安情报分析系统研究.2014第二届中国指挥控制大会,2014.

[4]刘军与张晖.公安大数据技术应用研究——以山东公安警务云平台建设为例[J].警察技术,2015(03).

[5]James Manyika,Michael Chui.Big data: The next frontier for innovation[J].competition,and productivity.2011.

[6]维克托·迈尔-舍恩伯格,肯尼思·库克耶,著.盛杨燕,周涛,译.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2012.1.

猜你喜欢

搜索
计算机技术在文检工作中的应用
入室盗窃案外围现场勘查的几点启示 
基于西洋跳棋的博弈程序研究
学科整合,信息技术教育教学的“魂”
优惠信息检索与分析
精心设计享受乐趣