APP下载

公安大数据预测与信息采集研究

2019-11-08农忠海刘向荣

数字通信世界 2019年10期
关键词:警务公安预测

农忠海,刘向荣

(广西警察学院,南宁 530023)

1 大数据的概念及原理

1.1 数据、信息、情报、知识的概念

(1)数据。数据是一种人为的符号,符号用来抽象表达某一事物,符号包括语言、文字、数字、图形、图像等,符号是记录某种介质上,符号需要人来解读才有意义。

(2)信息。信息是人对符号的解读,比如“5”是阿拉伯数字,可以解读为5页、5米、5天等,5页可以解读为第5页、共5页等,不同的解读就有了不同的意义,就有了不同的信息。对公安工作有用的信息,才是公安信息。

(3)情报。情报是指针对特定主体有利害关系的信息,情报具有很强的时效性、利害关系的针对性,信息包含情报。比如张三今天入住了某宾馆,这是一条信息;如果信息是张三今天入住某宾馆,计划在宾馆内实施不法行为,这就是一条情报。

(4)知识。知识是对信息进行分析整理、总结、提炼成反映事物发展规律的概念。由信息到知识是知识发现的过程,是把隐性知识转化为显性知识的过程。比如球沿设计好的各种坡下落,球的重量、坡的弧度、摩擦力、下落时间这些都是信息,经过对这些信息的分析、总结、提炼,牛顿发现了牛顿三大定律这一知识。

1.2 数据、信息、情报和知识的关系

1.2.1 数据、信息、情报和知识的层次关系

数据、信息和知识分属于三个不同的层次,情报与知识有交集,它们的关系如图1所示。处理它们的方法和技术也不同,数据库技术用于管理数据;信息管理系统用于管理信息,信息管理系统是在数据库技术基础上结合了信息处理技术;知识系统是在信息管理系统的基础上,通过数据挖掘、算法建模发现知识。

图1 数据、信息、情报和知识关系图

通过数据、信息、情报和知识的层次关系,我们可以观察到信息化的发展轨迹,当信息采集困难,信息较少时,人们需要建立大量的数据库,并通过网络把各个数据库连接起来,此阶段的信息化是为了满足人们的信息查询统计需要,实现信息共享;当信息采集容易,信息极大丰富后,人们获得信息不再是问题,已经不能满足于信息的查询统计,关注的焦点将向知识转移,通过建模分析,把信息转化为知识,此阶段的信息化是以知识发现为目标。

1.2.2 信息时代与知识时代(大数据时代)

信息共享和知识发现,标志着不同的信息化水平,也需要一个长期的发展过程,所以一些学者把以获取信息为主的信息化阶段称为信息时代。在信息时代,通过对鲜活信息的分析研判,得到有用的情报。把知识发现为主的信息化,阶段称为知识时代,也就是现在所说的大数据时代。

1.2.3 公安信息化发展的三个阶段

通过清晰信息、情报和知识的概念,也清晰了公安信息化发展的三个阶段:一是综合查询系统建设应用阶段,大概在2006年到2009年,建设部门间共享资源库,提供综合查询系统;二是情报系统建设应用阶段,大概在2010年到2015年,本阶段有了很多鲜活的信息,通过研判分析出有价值的情报指导工作;三是大数据系统建设应用阶段,大概在2016年至今,通过对信息进行算法建模,发现公安工作相关事务的规律,预测未来,公安工作从打击为主转入预防为主。

1.3 发现公安业务规律知识的基本原理

一直以来对知识发现本身,更多的是靠人的主观判断,或者从抽样数据进行分析。随着大数据技术、人工智能技术的进步,目前一些初级的知识已可以通过一些算法对全量数据进行分析所发现。常用的预测算法有简易平均法、移动平均法、指数平滑法、聚类算法、线性回归法[1]、决策树、人工神经网络、支持向量机[2]、正则化方法、时间序列等。

公安知识的发现,主要对公安工作相关的事务现象进行要素分析,导致某一种现象的因素都有哪些,然后将这些现象和因素信息(以下统称“因变量”)采用预测算法进行分析提炼,进而为今后该现象预测提供技术支撑。

2 公安大数据预测警务与信息采集需求

公安大数据预测警务可分为宏观和微观两个方面。宏观预测警务通过公安大数据的统计分析,在宏观上警务工作形势预测,来指导未来警力、财力、装备投入和机制体制等战略政策,所需采集的数据主要为具有统计意义的信息如:案别、案发地址及坐标、犯罪动机、作案手法、作案工具、犯罪人信息、区域警力等信息,宏观警务预测在技术操作上相对较为容易,应用的时间也已经比较成熟。

2.1 宏观警务预测

2.2 微观警务预测

本文主要研究微观警务预测及信息采集需求,微观警务预测主要用于指导日常警务活动。最高层次的微观警务预测主要包括三个方向:一是在什么时间、什么区域会有什么类型的犯罪预测;二是什么人会犯什么类型的罪;三是预测最有可能成为犯罪受害者的个人或群体。除了犯罪预测,公安还有社会管理的工作职能,比如消防管理、交通管理。这些高层次的警务预测所需的因变量较多,有很多因变量可能采集比较困难,因此高层次的警务预测难度较大,我们可以降低警务预测的层次,比如对路面的车进行预测车的用途类型、预测人的职业特点以辅助民警根据现场情况作出判断、预测电话号码是什么类型的电话号码以防电信诈骗。

公安大数据采集什么,取决于公安大数据预测什么警务,所以需要对预测警务开展顶层设计,然后根据所要预测的警务目的进行因变量数据采集,对应这些警务预测目的,需要采集哪些因变量,以下进行简要分析。

2.2.1 在什么时间、什么区域会有什么类型的犯罪预测

此类预测借鉴地震预测模型和传染病蔓延模型,主要预测盗窃、黑恶势力犯罪等犯罪行为。例如相对盗窃,某区域呈现出了环境缺乏守护的特点:小区防盗措施较弱、周边视频监控较少、警力分布较少等,犯罪目标财富聚集较多,盗窃犯得手之后,在未来两周之内、方圆100米左右再次实施盗窃的可能性很高。再比如黑恶势力犯罪在地域上有相对较为固定的区域,黑恶势力之间的打斗在短时间、同一区域范围反复出现。[3]此类犯罪预测通过对辖区内网格化区域划分,采用支持向量机、深度学习等算法进行建模,针对每个网格通过历史数据和当前信息预测今后一段时间的案发概率。此类预测难度最高,目前并没有完备的理论依据,因此只能探索将尽可能多的信息输入系统,通过机器学习,系统可以自动发现与犯罪相关的数据而不用探究原因。

采集的信息需求有公安业务数据、地理信息、本地社区数据、时间因素信息等,公安业务数据包括历年110警情数据、案事件基本信息、人员信息、轨迹信息等,地理信息包括地图、影像图、道路、桥梁、河流、铁路、高架道路、公园、游乐场所等,本地地点数据包括银行、超市、菜场、车站、社区等、宾馆、饭店、网吧、KTV、足疗等的地点类型、名称和经纬度等信息,本地社区数据包括社区平均房屋单价、房屋租金、物业费价格、用户用电量、物流信息等,时间因素信息包括历年气象数据、天气、温度、风向、风力、历年节假日情况、工作日、周末、历年法定节假日、农历、日出日落时间等。在具体的时间、地点作出某类型犯罪预测的准确率也普遍不高,可以通过扩大时间跨度、区域范围来提高准确率,例如将网格缩小到小区、城中村、商场这种相对较为封闭的区域,除了上述信息采集之外,可在出入口采集出入人员、车辆的信息,通过实时的对出入人员及历史数据的系统预测,将能大大提高预测的准确率。

2.2.2 什么人会犯什么类型的罪

犯罪分为临时起意犯罪和有计划的专业犯罪,个人临时起意犯罪,因没有犯罪计划,在信息化高度发达的今天来说侦查破案相对较为容易,因此重点预测专业化犯罪是当前的重点。当前社会呈现出了犯罪专业化、地域化的趋势,比如江西袁州技术开锁盗窃、广东茂名“猜猜我是谁”、广西宾阳QQ诈骗、涉恐涉暴涉邪、非法集资、传销等。

如何在海量信息中实现自动搜寻、分析与定位,寻求相应特征信息以快速自动识别并捕捉犯罪嫌疑目标,成为警务部门在信息化发展方面需要特别加强研究的重点内容。通过对历史上等存在危险隐患犯罪分子的全部信息数据进行收集统计分析,从中探索这些人员的潜在规律,发现他们的共同特征,从找出他们之间的相关关系和关联物。如信息中的地域环境、社会关系、年龄、教育程度、上网轨迹、手机信息、家庭背景、经济状况、职业、血型、其他信息等可以关联这类人员的共同特征值成为可能成为某种犯罪的关联物,特征匹配越高,预测为犯罪的可能性就越大,需重点管控防范。

所需采集人员的信息为:一是基本信息。为了完成大部分网络行为,消费者会根据服务商要求提交包括姓名、性别、年龄、身份证号码、电话号码、Email地址及家庭住址等在内的个人基本信息,有时甚至会包括婚姻、信仰、职业、工作单位、收入、病历、生育等相对隐私的个人基本信息。二是设备信息。主要是指消费者所使用的各种计算机终端设备(包括移动和固定终端)的基本信息,如位置信息、Wi-Fi列表信息、Mac地址、CPU信息、内存信息、SD卡信息、操作系统版本等。三是账户信息。主要包括账号密码、银行卡信息、网银帐号、第三方支付帐号,社交帐号和重要邮箱帐号等。四是隐私信息。主要包括通讯录信息、通话记录、短信记录、IM应用软件聊天记录、个人视频、照片等。五是社会关系信息。这主要包括好友关系、家庭成员信息、工作单位信息等。六是网络行为信息。主要是指上网行为记录,消费者在网络上的各种活动行为,如上网时间、上网地点、输入记录、聊天交友、网站访问行为、网络游戏行为等个人信息。[4]七是轨迹信息。开房记录、列车记录、航班记录、网吧记录、出境记录、入境记录、犯罪记录、住房记录、租房记录、银行记录、驾驶证记录、违章记录、物流地址等。[5]

2.2.3 预测最有可能成为犯罪受害者的个人或群体

多发性侵财类案件的犯罪分子是撒网式作案,有防备、有警惕的人不易成为受害者,往往犯罪分子是利用了受害者某些弱点,这些弱点是受害者共同特征。例如电信诈骗中受害者的性格特点多为交际圈小且封闭、贪小便宜、侥幸心理、想不劳而获等特点,这些信息只能通过心理测试或历史行为分析获得。

预测成为犯罪受害者的个人或群体和预测犯罪的方法基本上是一致的,不同的是受害者预测集中在年龄、受教育程度、性格特点、社会关系、从事职业、个人财富等关系较为密切,可以通过机器学习算法发现不同类型受害者的共同特点,将所需个人信息进行全面采集。

2.2.4 消防管理

将历史上所有火灾信息进行收集,采集可能会产生火险的因变量包含建筑类型、建筑层高、耐火等级、历史火灾信息、历史检查隐患记录、区域居民平均收入、建筑物年龄、是否存在电气性能问题等,通过机器学习算法进行建模,并将现有建筑的这些因变量进行收集,对可能发生的火灾进行预测。算法建模的过程就是知识发现的过程,这一算法建模将能较好的预测未来火灾发生情况,有效指导消防工作。

2.2.5 交通管理

通过对气象、速度、车流量、驾驶员(年龄段)信息、车况信息、事故信息、道路状况、安全带是否使用、时间段、交管执法力度等信息和数据,用大数据方法进行分析研判,从中可以疏导交通流向、找出降低交通事故的关联物和相关关系,从而有效的预防和降低交通事故的发生。

2.2.6 预测车、人、电话的类型

通过电子车辆卡口数据对车辆的行为轨迹分析出假套牌车辆、昼伏夜出车辆、区域徘徊车辆、车辆落脚点,再与机动车驾驶员数据、人员专题库数据进行关联对比得出车辆类型专题数据库,通过排除法将可疑车辆圈定在小范围内。

建立特定重点人群主题库、正常职业人群主题库以及这两个之外未有相关数据的未知人员主题库,并关联主题库人员的历史行为信息预测人的职业特点。

对电话号码的标记,目前有360电话本、腾讯电话本、华为电话本都给用户提供了标记功能,公安机关可通过这些商家的标记信息获取并共享可疑电话号码。

3 公安大数据采集现状与问题

3.1 当前公安信息类型

公安信息分为公安内部和公安外部的信息。[6]公安内部信息是公安机关在内部队伍管理、装备财务管理、服务社会、涉外管理、侦查办案的过程当中形成的信息,比如:警员信息、常住人口信息、出入境办证信息、110接警信息、刑事案件信息、犯罪嫌疑人信息等。外部信息源产生于公安系统之外的组织和个人,比如航空旅客信息、高铁动车旅客信息、旅馆业信息、网吧业信息、物流信息等信息。

3.2 当前公安信息采集的方法

3.2.1 公安自行采集

民警手工采集的大数据有:户籍管理采集的信息;打击违法犯罪采集的警情、案事件、嫌疑人信息;平时的治安管理中采集到的治安基础信息[7]、公共场所信息、危险物品信息等信息;天网及其他社会资源采集到的视频信息;公安机关开展巡逻盘查中采集的数据;机动车、驾驶员、车辆违章信息;公民出入境办证信息;信访信息。

3.2.2 社会化采集

包括旅业住宿登记、网吧管理、出租屋登记等,根据法律规定,依靠社会力量,为相关单位提供管理系统,通过暗访检查等方式加强采集管理,所采集数据为公安使用。

3.2.3 部门间共享

就是通过数据联网或者拷贝等方式,共享其他行政机关、企事业单位掌握的信息,有铁路、航空、交通等领域的数据。

3.2.4 互联网数据抓取和自动识别

互联网拥有这海量的数据,通过互联网数据的抓取和分析,形成专题库。基于二代身份证照片建立人脸识别数据库,通过指纹识别、车牌识别、手机等自动识别及智能感测技术获取指纹数据、电子卡口数据、电子围栏数据等。

3.3 信息采集存在的问题

3.3.1 公安大数据采集没有顶层设计

公安大数据采集为公安大数据警务预测目的服务,目前公安大数据警务预测还没有顶层规划,所采集的信息还是传统的为办证、办案、记录等信息化目的服务。为了警务预测,需将现有数据进行清洗标注、再聚合建模,还有缺失的因变量太多,而且警务预测是具有全局性的特点,因此预测效果很差。而且没有顶层设计,没有对应的岗位和职责,各地做法五花八门,不能形成规模效应。

3.3.2 运动式信息采集弊端多

公安系统发动多次运动式的基础信息采集工作,同时以绩效考核的手段考核基层民警采录基础信息数据。[8]民警日常工作繁忙,同时兼职采集录入数据,工作不堪负重的情况,为完成采集工作在系统随意输入信息,如何甄别信息可靠性成为头疼的问题,导致系统信息无法使用,造成了警力的严重浪费。由于运动式采集信息,没有形成长效机制,随着社会变化,很多信息很快失效。

3.3.3 民警手工采集盲区大

因为采集都是单向的、义务的,业主积极性调动不起来,往往该采不采或者故意作假,数据质量难以保证。如公安机关以前曾经开展的人才市场的信息采集,对方没有利益,也就没有积极性,工作难以常态化开展下去。很多小作坊、高层楼宇、工厂宿舍、小作坊、小门诊也没有纳入采集范围,这些盲区往往都是治安复杂区域,尤其需要重点采集。

3.3.4 一些不法分子反侦查、反采集的意识不断增强

比如,深圳盐田某香港女医生被杀案,嫌疑人在逃期间不带手机,不上网、不住宿、不用身份证;深圳龙华某女学生被杀案,嫌疑人作案后,上网、住宿立即改用了他人的身份证。类似这种故意规避采集的情况,仅靠社会力量,就可能会出现“采集好人、漏掉坏人”的漏采漏控问题。

4 公安大数据采集工作探讨

4.1 开展公安大数据预测与信息采集顶层设计

首先从公安大数据预测应用入手,根据各警种、各部门对预测应用的需求,形成警务预测需求。[9]根据预测需求开展研究,采集什么数据、使用什么算法建模进行科学研究,虽然作为科学研究不能一蹴而就,能根据计划马上研究算法模型成功,有些信息可能暂时没有手段采集到,但是警务预测需求基本是可以确定的,只要有了目标,所采集的数据就基本上有了方向,就可以提出基本的采集需求,然后在实践中再不断的调整、完善。这个公安大数据采集的需求是有别过去的基础信息采集的,是专门为警务预测而采集的数据。

4.2 设立大数据中心

设立大数据中心作为各级公安机关的二层机构,统管公安大数据的应用、软硬件管理、采集机制体制、技术标准及推动立法改革。

4.2.1 建立信息采集机制体制

各级成立大数据中心二层机构,同时基层科所队设立大数据专管员,明确工作任务和职责,上级各部门所有需要基层科所队采集数据的须经过大数据中心统一审核。基层科所队设立专门的信息采集工作岗位,明确辖区范围的信息采集任务,量化考核,避免出现漏采的情况。在督查部门设立大数据质量督查小组,定期开展实地抽查、电话回访等方式检查采集数据的质量,定时通报考核,全面提升数据质量。

4.2.2 制定信息采集规范标准

不同的采集步骤和方法将导致不同的结果,制定信息采集的规范方法,从源头统一信息采集的标准。对信息采集的必填项和扩展项作出明确的规定,并对每项信息采集的作用做出说明。扩充信息采集的范围,如:虹膜、血液、DNA。关系信息、物品信息、位置有关的信息等。

4.2.3 大力推动部门间共享

大力推动与政府、企事业单位部门间信息的共享,获取医疗、社保、水表、电力、燃气、通信、物流、会所、协会、社康中心等信息。

4.2.4 推动立法

从社会公共安全角度推动公安机关获取各项数据的法律授权,使数据的获取规范化、常态化。并从法律层面确认公安机关和个人对信息处理的权限范围,在保护社会公共安全的同时保护好个人隐私,也规范公安机关内部的信息处理流程。

4.3 以服务的态度,提高社会化采集的积极性

加强对企业、出租车公司、工厂、学校、会展、医院等社会单位提供前科人员背景核查数据服务,通过提供服务互利共赢的模式,获取相关单位的人员基本信息、轨迹、其他业务信息等。

4.4 加强路面盘查和核录,减小盲区,形成威慑

加强日常盘查和核录,盘查有目的性,不法分子越是躲避,形态越是反常,也就越容易被警方识别和盘查。所以把路面盘查和身份核录作为动态巡逻勤务的一项重要内容,加大力度,增强针对性,重点采集形迹可疑人员的信息。盘查可加大震慑、留下轨迹,减少信息采集的盲点。

4.5 大力推进互联网数据抓取、自动识别与智能感测

当前警力有限,使用技术手段自动采集信息是解放警力最好的途径,进一步加强互联网数据的采集、建模分析,通过人脸识别、指纹识别、虹膜识别、掌静脉识别、语音识别、声纹识别、步态识别、车牌识别[10]、车型识别、物体识别、二维条码、RFID、Wi-Fi等自动识别及智能感测技术获取人、物信息。

5 结束语

随着信息技术手段进步,万物互联时代的到来,公安大数据警务预测将成为必然的趋势。为了应对公共安全管理需要,公安机关将采集更多的信息,在完善公安机关内部数据采集和建模分析预测的同时,也需要从法律层面明确公安机关信息采集和使用的范围,以确保公安大数据预测警务有序进行。

猜你喜欢

警务公安预测
无可预测
博物馆:上海公安史图片展
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
Frequent attacks on health workers in China: social changes or historical origins?
环球警务专访
“10岁当公安”为何能畅通无阻
浅谈港航公安网上警务公开的现状和问题
警务训练中腹痛的成因及预防