APP下载

公安数据质量监测的实践研究

2021-05-28颜坤星

辽宁警察学院学报 2021年3期
关键词:公安监测质量

佟 冶,颜坤星

(辽宁省公安厅 情报总队 科技信息化总队,辽宁 沈阳 110032)

公安信息化工作起步于20 世纪80 年代,历经30 多年的发展。近十年来,各级公安机关坚持以“公安创新发展战略”为引领,把公安信息化建设摆到了前所未有的高度。截至目前,公安信息化建设“统一运行网络、统一基础设施、统一数据资源、统一服务平台、统一安全策略、统一标准规范”的“六统一”格局已初步形成,各地公安机关汇聚了大量数据资源。随着省、市大数据平台的开发建设,各级公安机关按照“一切资源化、资源目录化、目录全局化、全局标准化”的顶层设计思路,构建统一的资源目录体系,为数据驱动资源、应用调度资源提供关键支撑。在整个公安信息化体系中,数据质量是数据治理体系中最核心的工作,是公安业务数据汇聚统计的重要基础,数据汇聚后建设数据质量监测模型,是保障公安数据源头活水的重要抓手,更是大数据在公安业务中发挥准确价值的有力保证。

一、辽宁省公安数据资源现状

辽宁公安省级大数据平台目前已经汇聚、整合内外部数据资源一百余类、二百余亿条数据;视频平台实现联网调用视频近二十万路,其中公安自建公共区域视频监控十万余个;省公安厅已建各类信息化系统、平台共二百余个,其中在用的一百五十余个,为分析研判、辅助决策、应用创新提供了强大支撑。全省强化信息资源整合共享,开发了一批具备辽宁特色的高端应用系统平台,为信息化建设长远发展提供了坚实支撑,在实战中取得了显著成效。

二、公安数据质量监测工作的内涵

数据质量直接影响着数据资源的可用性,数据质量监测工作是通过建立数据质量评估标准和管理规范,及时发现、监测定位、跟踪解决各类数据质量问题,形成数据质量问题的闭环处理,以保证数据质量的稳定可靠,为各类数据资源转变为可面向实战的真正有价值的信息资源打下坚实的基础。

(一)待监测的结构化数据资源

公安信息化在顶层设计过程中,主要是围绕采、存、融、管、服这条主线来制定的。采是指数据采集,充分利用各种传统方式和信息化技术手段完成数据应用需要的多样化的数据采集。存是指数据存储,基于Hadoop分布式计算框架、RDB、MPP等技术,构建异构混搭的存储计算架构,支撑不同应用场景的数据存储计算需求。融是指数据融合,完成数据标准框架指导下,数据资源校验、清洗、加工、修正、整合,形成面向数据服务和数据应用的数据资源库。管是指数据管控,通过完善的数据管控技术支撑和组织制度建设,实现数据标准、数据质量、元数据、数据安全、主数据、生命周期等领域的管理。服是指数据服务,面向公安实战应用提供丰富的服务接口、服务接口开发工具以及服务总线等[1]。

数据质量监测工作需要监测的数据资源主要包括四类:第一类是触发型的公安核心业务数据,即公安内生数据,包括案件、警情、重点人员(刑事前科、涉毒、在逃、涉恐等)、涉稳群体、入监所人员、违法嫌疑人、涉案人员等。这部分数据多是在民警执法办案过程中录入产生,有时难免会存在误差和错误。第二类是关系型的轨迹类数据,包括旅馆、网吧、航班、铁路、客运、人员核录等。这部分数据是通过身份证和轨迹信息产生,较为准确,但是在实际工作中存在“冒用他人身份证件”等人证不符的情况。第三类是常态型的公安警种业务数据,包括常住人口、暂住人口、寄住人口、出租房屋、承租人、从业人员、机动车、驾驶员、特种行业、警员库等。这部分数据是在各类公安工作中产生的,因为部分数据为手动录入,所以也会存在误差和错误。第四类是关联型的社会信息资源,包括养老、医疗、煤气、自来水、电费、职业医师、中小学教师、单位基本信息等外部数据。这部分数据产生于各个社会单位,数据字段和来源不一,但也存在直接或者间接关联价值。对以上四部分资源,都需要做好数据质量监测工作,实现数据的源头治理。

(二)公安业务数据逻辑结构分析

基础数据的收集、入库是数据库建立初期工作量最大也最繁琐的工作。在公安系统平台运行过程中,数据不断得到更新,使数据库成为一个“活库”,而“活库”的长久维护,不仅仅需要技术公司在技术层面的支撑。系统的数据逻辑结构设计是维系“活库”最核心的内部封装标准,而不断的数据质量监测,是保证“活库”健康运行的重要保障。

数据质量监测的关键环节是统计好现有公安系统的全部内部逻辑,全面的数据逻辑统计是数据质量监测的最重要环节。如图1 是案件、警情、嫌疑人等数据逻辑关系图。由数据逻辑关系可以运用实体完整性、自定义完整性、参照完整性来进行数据之间的关系制约,实现数据质量的监测,这就是最原始系统的封装标准。所有公安系统的业务流程、数据对业务工作的固化、数据的血缘关系、数据的生命周期等,都紧紧依托数据的逻辑模式。

图1 案件、警情、嫌疑人关系逻辑图

三、公安数据质量监测内容

(一)公安数据质量监测基本功能

1.数据采集监测。负责采集数据接入及处理环节输出的指标信息,源数据、各处理环节及存储数据的样例数据采集等。如治安、巡特、交管、出入境等警种作为公安主流数据采集警种,采集监测应作为警种数据质量监测的核心内容,决定后续质量监测的源头样例数据[2]。

2.数据质量检核。对数据多种维度进行探查,并输出详细的数据质量检核报告,包括数据质量评估指标定义、数据质量规则制定、检核作业调度等。多维度探查,即在寻找数据库间逻辑关系的同时,也要发现一些业务型关联关系[3]。如暂住人口和从业人员的数据采集,二者没有逻辑关联关系,处在不同维度,但是,从人员业务角度,外地人员在本地工作需要固定的落脚点(暂住地),如果辖区内有较多新增外省市从业人员,但暂住人员采集较低,这种情况就需要检核。从完全采集的角度,也要对不同来源的数据项进行比对校验,对不同单位形成数据质量检核报告。

3.问题发现追踪。支持根据数据质量检核报告、业务反馈信息发现和记录数据质量问题;支持数据质量问题可视化管理、分析、跟踪、解决;支持分析、分类汇总并积累数据质量知识。问题发现与追踪工作是追根溯源的过程,很多问题都会落在基础信息采集上。结合多年的省级公安机关数据质量监测工作,信息采集工作存在的问题主要包括虚采、漏采和数据信息不完整、不规范等几方面。

(二)虚采监测

在虚采问题上,通过数据比对模型,分析判断部分单位存在的虚假信息录入情况。

1.同一平台账户一分钟内录入超过 5 条以上承租人信息(正常录入信息一分钟内手工达不到5 条,超过5 条的有利用软件录入造假嫌疑);

2.同一承租人在同一天被多次录入的(同一区填报人或不同区填报人),其中必有虚假信息嫌疑;

3.一个承租人承租多个房屋;

4.同一出租房屋的承租人数大于10 人的,此类出租房屋的承租人有涉假嫌疑(学校、工地除外);

5.同一从业人员在同一天内被录入在不同的从业单位名下,其中的从业单位信息具有造假嫌疑;

6.从业人员在多个地市有未注销从业人员信息的;

7.死亡注销人员在死亡日期后被录入到相关基础信息内的;

8.同一人在同一县区寄住人口与暂住人口记录都存在的,其中有一条必定为造假信息;

9.已死亡注销人员出现轨迹在旅店住宿、网吧上网信息的,必定为虚采信息;

10.看守所和拘留所在押人员在押期间出现旅馆住宿轨迹、网吧上网信息的,要么是监所录入信息不准确,要么是未实名制登记,一定存在虚采问题。

(三)漏采监测

1.采集数量与客观规律明显不符。如《全省第一季度通报》中提出的“第一季度XX 分局从业人员信息采集不足40 条,也就是两天采不到1 条;XX 县局出租房信息为0,承租人信息不足5 条。”都属于采集数量与客观规律明显不符,XX 市曾经连续13 个月“内保从业人员”采集量为0,更是此类漏采的代表。

2.通过准确数据库与基础信息采集库之间的关联比对确定为漏采。通过已知准确库与基础信息采集库进行比对,存在数据差异的,即为漏采信息。例如:刑事案件信息相对准确。在入室盗窃、入户抢劫案件中,受害人为房屋实际居住人,且非本地户籍的,如未登记暂住人口信息,即为漏采;在旅馆内住宿的旅客报警,但该旅客没有实名制登记信息,无论是旅馆未实名制登记,还是实名制信息未及时传入公安网,均属于漏采问题。

(四)完整性与规范性监测

部分单位在采集录入案件、人口类信息过程中,仍然没有达到相关警种部门制定的信息采录标准。在多年的积累过程中,完整性与规范性监测,均依托数据库系统的“自定义完整性”不断的更新系统功能,扩充系统的源头采集纠错能力。比如身份证号码录入错误,能够实时提示,包括外部导入过程,也要对错误的身份证号码进行批量提示“无法导入”。

一是通过身份证号码规则确定身份证号码是否正确。目前18 位身份证号码包括了登记户籍所在的省市县(区)、出生日期等信息,且第18 位是由前17 位分别乘以不同系数后经过计算得出,随意编造身份证号码或者手动输入错误的身份证号码很难通过校验。优点是可单机实现,不必联网,缺点是无法关联出姓名和户籍地址等信息,也无法保证绝对准确,更无法辨别已注销的身份证号码。

二是通过与全国户籍信息比对,确定身份证号码是否准确。优点是信息十分准确,且能够关联出户籍地址、姓名、照片等信息,缺点是实现实时对接信息较难且无法满足断网条件下的信息监测。

四、公安数据质量监测工作机制要求

(一)监测工作机制

1.采集信息的种类及其范围。按照公安基础信息采集的业务划分,主要包括人口管理方面信息、物品管理方面信息、治安管理方面信息、经侦管理方面信息、执法办案方面信息等五部分,对每一部分采集的内容进行确定,如治安管理方面信息的特种行业包括旅馆业、印章业、典当业、印刷业、旧货业等信息的采集。

2.采集信息的标准及规范。按照采集信息的种类,确定每种信息采集的字段要求,如必填项、字典项、日期范围项、自定义长度要求项,如必填项“户籍详址字段”采用省(市)+区(县)+路(镇、乡、巷、街等)+村(组、委等)+门牌号(号、队、宅等)进行限定。

3.采集信息的维护要求。采集部门对采集信息及时采集录入并进行实时维护,备案登记的信息如与实际信息不符,要求辖区派出所XX 个工作日内完成维护,更新信息。信息维护的时限是以周、半月、月、季度为周期进行维护,维护过程也是责任单位进行质量监测的过程。

4.数据质量监测与考核工作规范。为规范各市公安机关各类信息录入工作,全面落实公安派出所基础信息采集维护规范,推动各地信息化的深度应用和规模应用,为情报分析研判提供真实、准确、鲜活的数据,需要制定数据质量监测与考核工作规范。具体包括总则、职责分工、工作流程、考核指标等内容。

(二)数据质量监测通报

1.数据质量监测周期性通报。省厅、市局考核单位按照一定周期抽取主要公安业务数据,通过单库排查、多库比对等方式对数据质量进行监测,工作中确保数据客观、准确,真实反映各地情况,将问题数据下发到各地,要求各地开展核查、反馈、整改等一系列工作。

2.社会治安及稳定形势通报。利用数据模型的比对分析,通过社会治安及稳定形势通报,督促存在基础信息虚采、漏采等情况的个别地区进行信息核实并进行及时整改,各市针对通报情况开展核查整改。

五、公安数据质量监测工作展望

(一)尽量避免采集错误问题

采集身份证信息时,可通过NFC(近场通信)技术读取身份证芯片,尽量避免“手写”“口述”等记录方式。对通过身份证号码能够比对得出的信息无需采集(如姓名、户籍地址等),同时警综等平台实现对身份信息的验证,对新入库的信息“号码错误、姓名不符、在逃信息、重点人员信息、存在重复信息”等情况自动提示,尽量在采集步骤上避免错误数据的产生。

(二)拓展质量监测数据范围

拓展传统数据质量监测范围,逐步向手机号码、虚拟身份等进行验证。例如在监测重点人员手机号码的平台,如果手机信号位置和实名制轨迹不符,那么两者之间必然存在一条虚采信息。通过不断拓展质量监测数据范围,增强异常信息发现能力。

(三)实现问题信息平台预警

在固化质量监测模型监测标准后,可以通过平台预警直接推送错误信息和需要核实的疑似错误信息到录入单位或采集单位,便于在第一时间发现错误或异常信息,及时进行整改,从而优化警务流程,提升警务工作效能。

猜你喜欢

公安监测质量
博物馆:上海公安史图片展
特色“三四五六”返贫监测帮扶做实做细
“疫情当下,我们上前”——抗击新冠肺炎战“疫”中的港航公安掠影
Frequent attacks on health workers in China: social changes or historical origins?
“10岁当公安”为何能畅通无阻
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月
质量投诉超六成
学习监测手环
睡个好觉