APP下载

国外警务数据开放平台建设现状及启示
——以英国、美国和澳大利亚的17个平台为例

2022-12-30陈恺迪

北京警察学院学报 2022年5期
关键词:开放平台警务犯罪

陈恺迪

(中国人民公安大学,北京 100038)

根据开放知识基金会(Open Knowledge Foundation)的定义,开放数据是指能够被免费使用、重复使用并能够被任何人重新分发(redistributed)的数据[1]。得益于互联网和数据技术的发展,当前开放数据在各领域得到了广泛应用。在政府行政领域,各国政府都在积极开展数据开放实践,建立属于本国的数据开放平台以公布适合开放的、能够被重复使用的数据。

数据开放与信息公开有所区别。与数据开放相比,信息公开是政府的单方面行为,而数据开放强调政府利用信息技术和服务平台,主动向公众提供无需特别授权和可被机器读取、能够再次开发利用的原始数据。数据开放是一种数据的流动,能够发现更多有价值的信息。与信息公开主要是一种行政行为不同,数据开放的目的在于利用[2],即让外部用户能够使用这些数据,由此政府可以从民众的才智中受益,不断提高政策制定和执行的水平。虽然当前民众获取数据的渠道很多,但是政府数据由于其规模、广度和权威性的不同而具有特别重要的价值[3]589。

作为政府数据的一部分,警务数据对于研究和处理与犯罪和警务相关的社会问题尤为重要,将警务数据与其他领域的开放数据相结合能够释放出警务数据的巨大价值。2015年,我国发布《促进大数据发展行动纲要》,指出大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段[4]。通过对北京、上海、深圳等十几个警务门户网站和政府数据开放平台进行梳理,目前,我国在国家、省、市各级公安机关已建立自己的警务门户网站,但绝大多数网站都以警务信息公开为主,部分网站的数据公开模块公布的数据类型单一,数据量小且以静态的数字或简单的统计为主。例如,公安部网站的信息公开模块主要通过文章来呈现数据,各类数据未作区分且以汇总类数据为主。与之相似,大多经济发达地区的省、市公安机关门户网站也存在这一现象。即便部分网站设立数据开放模块并接入政府数据开放平台,相关主题数据仍是以信息公开的内容为主。

虽然我国的警务门户网站建设总体上处于信息公开阶段,但警务数据开放在许多国家已经进入实践并取得一定经验。例如,2010年英国政府创建“开放政府牌照”(Open Government License),旨在授予用户使用开放数据的权限,同时建立警务数据开放网站,允许用户访问多种类型的警务数据[5]97。为了利用数据和技术来增进社区信任,2015年8月奥巴马政府发起警务数据倡议(Police Data Initiative),希望通过此举来增加警务部门的影响力和民众对警务部门的信任度[6]。根据警务数据倡议,目前美国形成了一个旨在促进主要执法部门、科技工作者和研究人员参与到社区合作中,强化以信任、责任和创新为基础的公共安全的执法组织,该组织涵盖120多个执法部门[7]。

为此,本文将对国外比较成熟的警务数据开放平台展开研究,以期为我国警务数据开放平台的建设提供借鉴。

一、研究方案

本文的研究对象为警务数据开放平台。国外学界对于政府开放数据的系统多使用“开放数据门户网站”(Open Data Portal)这一概念。开放数据门户网站是指一套用来收集多源异构数据,在用户友好的仪表板(User-friendly Dashboard)上公开数据,并提供应用程序编程接口(API)供用户浏览和下载数据的基于网络的系统(Web-based System)[3]593。由于国内学者通常将政府网站内开放数据的系统称为政府数据开放平台,本文将应用在警务领域的数据开放系统统称为警务数据开放平台。

国内学者对于警务数据开放平台的研究仍较少。张宁以上海等8个城市的公安局在政府数据开放平台开放的公安数据为研究样本,从开放的数量、主题等方面对这些数据进行研究。[8]但是作为研究样本的数据绝大部分仍然属于信息公开的范畴,只是信息公开的内容以数据集的形式存在。阮重骏通过比较中美两国的犯罪数据公开,得出我国目前需要公开更多样的更加全面的统计数据,建立交互式的犯罪数据公开平台。[9]但是作为研究对象的数据和系统主要为国家层面的数据和系统,城市层面的犯罪数据公开仅提及了辛辛那提市警察部门在其交互式网站的的数据公开,且数据内容只包含犯罪数据。

目前世界范围内很多国家和地区设立了警务数据开放平台,但平台建设水平和完善程度参差不齐。本文从政府数据开放水平较高的英国、美国和澳大利亚①根据万维网基金会(World Wide Web Foundation)提供的世界开放数据晴雨表(Open Data Barometer),英国、澳大利亚和美国依得分从高到低分别处于世界第2位、第3位和第9位。从榜单中得分前10位的国家来看,上述3个国家在警务数据开放平台建设上有着更为丰富的实践,而且3个国家在政府数据开放平台建设上的丰富实践使得它们常被国内学者选作政府数据开放的研究对象。参见杜荷花:《国外政府数据开放平台隐私保护政策的考察与借鉴》.载《图书馆建设》2020年第3期。邸弘阳,任思琪:《政府数据公开网络平台的数据管理与利用方式研究》载《图书馆杂志》2017年第1期。选择若干警务数据开放平台作为研究对象,包括英国国家警务数据开放平台,美国的9个建设较为完善的城市一级警务数据开放平台,澳大利亚的6个州一级警务数据开放平台和北部领地警务数据开放平台(见表1)。总体而言这些平台的运行时间较长,迭代次数较多,数据较为丰富。

表1:平台基本情况

借鉴国内外学者对于政府数据开放平台的丰富研究,本文将从3个角度对上述警务数据开放平台的建设现状进行梳理和分析:一是平台设立层级的角度;二是平台数据的角度,包括数据的数量、主题、隐匿处理、更新和下载格式;三是平台功能的角度。

二、平台建设现状

(一)平台设立层级

3个国家警务数据开放平台设立的层级有所差别。英国主要通过英国国家警务数据开放平台公开警务数据。虽然少数城市或地区也建立了警务数据开放平台,但模块较少且部分平台直接接入国家警务数据开放平台。澳大利亚的警务数据开放平台基本建立在州这一层面,本文调查的6个州都在自己的警务网站上设有专门的开放数据模块,北部领地也有属于自己的警务数据开放平台,但在城市这一层级并没有设立警务数据开放平台。美国警务数据平台主要设立在城市一级,本文研究的美国9个城市的警务数据开放平台可以分为两类:一类是在警局自有网站的基础上设立Data或Open Data模块,然后根据自身需要设置具体模块及功能;另一类是将数据接入本级政府已有的政府数据开放平台,依托城市政府数据开放平台来公开数据(如纽约市和洛杉矶市)。比较而言,前者让警务部门拥有更大的自由度,可以更加自主地选择展示的内容和展示的方式,但不同平台之间的差异明显,给不同城市的数据整合带来较大困难;后者采用统一的平台和格式,警务部门仅需上传数据即可,但是平台的界面和数据展示的模式较为单一。

通过以上比较分析发现,警务数据开放平台的设立层级与相应警务部门管辖的人口、地域范围以及行政区划等因素密切相关,由于前述因素的不同,3个国家的警务数据开放平台分别建立在3个不同的行政区划层面。

(二)平台模块

警务数据开放平台依托不同的网站建立,设立在警务网站内部的警务数据开放平台可以个性化地定制平台的模块。在本文调查的警务数据开放平台中,比较常见的模式是在警务网站中设置开放数据模块,通过网络页面公布不同时期、不同类别的警务数据。其中部分建设相对不完善的平台在开放数据模块中仅设置了数据模块,并且只公布了统计数据或者报告;而部分建设比较完善的平台则包含更多的模块,如英国国家警务数据开放平台除了主页和数据模块外还包括API、变更日志(Changelog)、联系方式(Contact)等模块。除此之外,美国的西雅图市、芝加哥市和澳大利亚的昆士兰州等地警务数据开放平台还在页面上设立了犯罪地图模块(Crime Map)和仪表盘模块(Dashboard)等,以方便用户快速找到所需的功能。这些平台往往展示的数据较多,设立更多模块以方便用户的使用,同时在平台功能上也可以有更多的创新。

(三)平台数据

1.数据量

不同平台的数据量存在明显差异(见表2)。按照数据集数量和数据量的不同,这些平台可以分为4种类型:第一类是数据集多、数据量大的平台,如英国国家警务数据开放平台和纽约市的警务数据开放平台。这类平台建设的时间较早、运行周期较长,已经公开了相当数量的数据。第二类是数据集较多、数据量相对较小的平台,如北部领地、奥克兰市和路易斯维尔市的平台。但经过深入分析发现,北部领地以月份作为数据集的划分单位,奥克兰市和路易斯维尔市则以天作为数据集的划分单位,划分单位的不同导致各平台数据集的数量差别较大。第三类是数据集较少、数据量相对较大的平台,如洛杉矶市和西雅图市的平台。这类平台尽管数据集数量较少,但是单个数据集的数据量较大,如西雅图市警方公开的整合犯罪数据(Migrated Crime Data)包含犯罪类型、时间、地点等37个数据标签,共962265条数据。第四类是平台数据集和数据量都较少的平台,如波士顿市、昆士兰州的平台,这一类平台公布的主要是犯罪数据。

表2:平台数据量

虽然警务数据开放属于政府数据开放的一种形式,但是二者之间存在一定的差别。学者对政府数据开放平台进行研究时,通常以平台的数据集、数量和数据集内的数据量作为衡量平台数据质量和价值的指标,但这种衡量标准对于警务数据开放平台并不完全适用。一方面,各警务数据开放平台展现数据的方式不同,如有些平台通过仪表盘或者犯罪地图的形式呈现数据,由于下载方式和文件类型与其他数据不同,这一类数据往往较难纳入统计范围。另一方面,数据集划分标准的不同使数据集数量的统计缺乏统一口径,例如,部分警务数据开放平台公布的更多是汇总的数据,而部分平台公布的主要是事件级别(Incident-level)的数据;有些平台将犯罪数据统一放至一个数据集中,而有些平台基于不同的细分犯罪类型分别建立数据集。因此数据集多并不意味着数据丰富,数据价值不能仅仅通过数据量或数据集的数量来判断,那些数据集较少但是数据集相关性强且容易使用的数据开放平台可能比那些数据集多但较难使用和获取数据的平台具有更大的公共价值[10]。

2.数据主题

表3(见下页)显示了对各平台数据主题的统计情况,从中可见,本文调查的所有警务数据开放平台都公开了犯罪数据,而且据笔者统计犯罪数据在总体数据中的占比相对较高。除了犯罪数据之外,相比较而言,英国和美国的警务数据开放平台公开了更多其他主题的数据。同时,在表3列举的数据主题以外,有些平台还公开了其他主题的数据,如英国国家警务数据开放平台公开了呼吸测试(Breath Test)、毒品扣押(Drug Seizures)等主题的数据,芝加哥警方公开了观点数据(Sentiment Data)等。

选择公开哪些主题的数据需要考虑多方面的因素,其中,当前的治安状况以及民众的关切是优先考虑的因素。从表3可以看出,与英国和澳大利亚相比,美国的警务数据开放平台公开了更多的枪击案件数据和武力使用数据,这与美国社会中枪击案件的发生频率较高、民众对于警察使用武力的问题极为关注不无关系。所以,平台公开的数据主题在一定程度上反映了当地时下社会治安的突出问题和民众关切的重点。

3.数据的隐匿处理

开放数据是指不受隐私限制并且非机密的数据,是通过公共财产产出并且在使用和分发上没有任何限制的数据,而警务部门提供的犯罪数据与此恰恰相反[11]。警务数据在公开和使用上受到一定限制,而且包含所报告或者所记录犯罪的秘密信息[12]4。包含较为详细内容的警务数据尤其是事件级别的数据普遍涉及个人身份和位置等隐私信息。为了尽量使被公开的警务数据在保证准确性的前提下不侵犯个人隐私,警务数据开放平台会对数据进行不同程度的隐匿处理。

较为简单的隐匿处理方式是将重要信息的全部或部分进行隐藏,除此之外,实践中一些警务部门进一步细化了不同类型信息的隐匿处理规则。例如,英国国家警务数据开放平台介绍了数据匿名化处理的一系列方法,包括具体的日期仅精确到月份、犯罪编号和犯罪类型替换、犯罪发生地的经纬度按照统一标准进行转化等。不仅如此,对于地点的匿名处理,英国警方还设置了一套专门的流程来实现数据公开和隐私保护的平衡。

在本文调查的所有平台中,像英国警方这样深入进行数据隐匿处理的并不多。隐匿处理意味着在数据开放之外还有许多额外的工作,且对数据的准确度以及用户对数据的理解也会产生影响。因此绝大多数平台只是通过简单的隐匿方式对数据进行处理,公布并说明匿名化处理规则的平台也较少,甚至部分平台出现数据未隐匿处理的情况,用户可以看到具体的时间和地理位置等信息。

4.数据更新频率

及时和持续更新数据对于警务数据开放平台具有重要意义,现实中犯罪行为和警务行动在持续不断地发生,平台只有及时、不断更新数据才能发挥数据的最大价值。实践中许多数据开放平台在创建之初短时间内公布了大量的数据,但此后只是断断续续地公开少量数据甚至不再更新和公布数据[13],这与数据开放原则相违背。除了作为本文研究对象的平台之外,笔者在研究过程中还浏览了其他平台,之所以未选择其他平台作为研究对象,一方面是因为那些平台建设不完善、界面设置落后、数据量小,另一方面是因为它们长期不更新数据。

数据更新的频率主要包括日更新、周更新、月更新、季度更新和年更新等。在本文调查的平台中,所有平台的所有主题数据至少每年都更新一次,在此基础上不同平台的不同主题数据的更新频率有所不同。总体来看,建设较为完善的平台能够对不同数据实现不同频率的更新。值得注意的是,在本文调查的平台中,西雅图市警务数据开放平台是唯一一个按小时更新部分数据的平台。该平台公开了最近24小时的报警数据,用户可以按照过去1小时、过去7小时和过去24小时3种筛选范围进行统计,这种更新频率实现了数据的动态更新。

5.数据下载格式

机器可处理(Machine-processable)是数据开放的一项重要原则[14]。为了便于用户挖掘数据的价值,各警务数据开放平台都提供了多种格式的结构化和非结构化数据,通过设立链接的方式提供了XLSX、CSV、PDF等不同格式数据的下载路径。此外部分平台在提供基础的数据下载格式之外还使用可视化工具为用户提供其他数据下载格式,如使用Tableau可视化工具提供图像、交叉表等数据下载格式。

(四)平台功能

为了满足商业分析的需求,数据公司研制了多种分析工具以便用户挖掘数据价值。在本文调查的警务数据开放平台中,部分平台将商业分析工具作为数据展示的拓展窗口内嵌在自己的平台中,有的平台甚至选择使用商业分析工具展示所有的数据和功能。

在被调查的平台中,共有5个平台使用了商业分析工具。各平台提供的商业分析工具主要包括两款产品:一是Tableau公司开发的可视化分析平台,二是微软公司开发的数据可视化工具Power BI。在功能实现上,两款产品并没有本质的差异;在使用广度上,Tableau的使用明显广于Power BI(见表4)。

除了商业分析工具外,平台本身包含的工具以及部分平台自己研制的数据分析工具也为用户提供了多种功能选项。这些便捷的数据可视化工具不仅有助于更立体地展示数据,而且能够节省用户的时间和精力,方便用户开展个性化的分析。

表3:各平台公开的数据主题

表4:平台提供的商业分析工具

三、存在的问题

(一)数据差异导致数据难以整合

在数据时代,尽管数据的记录、收集和系统抓取已经取得巨大进步,但犯罪数据整合仍然非常困难[15]1。每个城市都在各自的网站上独立公布自己的数据,数据的形式和内容千差万别,因此在不同城市的平台中查找相关数据是一件比较困难的事[16]。总体而言,各个地区、各个平台的数据之间的差异主要体现在以下两个方面:

第一,数据主题差异较大。不同平台仅在犯罪主题数据的公开上具有较高的一致性,而在其他主题数据如警察使用武力数据、抓捕数据等的统计和公开上存在巨大差异,甚至有些数据主题只存在于某一个平台上,而其他平台都未涉及。

第二,即使属于同一主题,数据之间也存在较大差异。例如,由于各国法律对于犯罪的定义不同,即使纯粹地对犯罪记录数据进行比较基本上也是不可能的[17]。数据之间的差异使得在使用数据进行横向比较或研究时障碍重重。一方面,不同数据的标签差异明显。以犯罪数据为例,美国有些城市提供的犯罪数据包含20多个数据标签,有些城市提供的犯罪数据却仅有几个标签。另一方面,数据分类和概念使用缺乏统一标准。例如,由于参考标准和法律依据等的不同,各平台对同一类犯罪的分类结果各不相同;又如,在这些平台上,不同的术语可能被用来描述同一事物,或者同一个术语被用来指称不同的事物,这些问题都会导致数据产生巨大差异[15]4。

(二)数据准确性不足影响数据应用

对于警务数据开放平台公开的数据的准确性,不少用户和研究人员持有怀疑态度。有学者研究英国国家警务数据开放平台公开的已经进行地理编码的数据后发现,该平台中关于较大空间单位的数据信息准确性较高,而关于较小空间单位尤其是区位层级(Postcode level)的空间数据信息误差较大[5]109;对于犯罪数据,由于记录方式的不同,数据未上报(Under-reporting)和未记录(Under-recording)现象、犯罪发生在不同地点却按照同一地点记录的现象、数据遗失(Missing data)等问题一直存在[12]8。同时,隐私保护要求对数据进行隐匿处理,研究人员担心在依托警务开放数据开展研究时这种隐匿处理会导致研究结果不准确。此外,数据的不准确也会制约研究者开展有关犯罪时空分布的研究,因为这一类研究非常依赖犯罪发生于何时何地的准确数据[18]。

(三)犯罪数据的主题和标签不够丰富

当前各平台公开的犯罪数据主要是对传统犯罪的统计,鲜少涉及新兴的网络犯罪、经济犯罪等对民众生活造成严重影响的犯罪类型。同时从数据挖掘和研究的角度来看,研究者不仅希望平台提供更多的数据主题,而且希望数据本身的标签也更加丰富。缺乏诸如作案手法等指标的数据将给相关研究如刻画犯罪人的肖像带来困难[12]12。

(四)数据的下载和使用不够便捷

虽然各警务数据开放平台都提供了多种数据格式供用户下载,但是仍然存在一些不足。首先,以PDF格式呈现的数据在许多平台中占据相当的比例,这种数据格式在下载后往往无法转换为其他格式,这为数据的汇总和分析增添了难度。其次,部分使用可视化工具的平台没有提供下载功能,或者没有提供其他常用的数据格式。

四、借鉴与启示

尽管目前我国的警务门户网站尚不具备数据开放功能,但无论是从技术能力还是从数据储备来看,我国的许多地区都已经完全具备搭建警务数据开放平台的条件,甚至有些条件相比发达国家更为充分。因此我国应当加快警务数据开放的步伐。

第一,转变对于警务数据开放的认识。首先,要明确数据开放和信息公开的区别,信息公开不能代替数据开放。其次,警务数据不可以完全公开,但是完全可以公开。警务数据并非全部都是秘密数据,非秘密的数据可以向公众开放,部分数据也可以通过隐匿处理后公之于众。最后,警务数据开放并非只是搭建一个数据平台将数据导入即可,而是一项系统性工程,数据开放的价值在于利用,数据本身也需要不断更新。

第二,选择若干市一级的公安机关试点建设警务数据开放平台。基于前文对英国、美国和澳大利亚的警务数据开放平台的分析,从平台设立等级角度来看,考虑到管辖的人口数量、地域范围以及行政区划的层级等因素,当前我国建设国家级或者省一级警务数据开放平台仍有较大难度;为了保证数据开放的质量和规模,可以考虑以市一级公安机关为主体搭建警务数据开放平台,尤其是选择在数据警务建设中走在前列的城市开展试点可以达到更好的效果。但开展试点同时需要注意,特殊主题的数据开放可以由市一级公安机关根据自身情况自行决定,部分主要的数据主题,如犯罪数据开放的标准则需要仔细研究,包括至少应当包含哪些标签,特定标签的数据应当是怎样的格式,隐匿处理的模式等,可以考虑由上级公安机关提出指导意见,提前考虑数据整合的需要,避免出现国外警务数据开放平台各自为战的现象。与此同时,数据主题和标签的选择也可以考虑征求公众以及研究学者的意见,既回应社会的关切,也能够满足研究需求,达到多赢局面。

第三,充分利用已有网站和网络平台。虽然我国警务数据开放仍处于起步阶段,但警务数据开放平台的建设不需要从零开始。现有的警务门户网站或网络平台、网站内部的信息公开模块以及本级政府的数据开放平台等都可以作为搭建警务数据开放平台的基础。尽管个别公安机关已经设立数据开放模块并接入城市的政府数据开放平台,但是综合本文中对各国外警务数据开放平台的分析,在警务门户网站上设立数据开放模块具备更高的自主性,能够定制化满足自身对于数据开放的需求,且商业工具的使用、平台功能的实现和创新也都是由建立在警务门户网站基础上的警务数据开放平台实现,因此从警务门户网站入手能够在现有政府数据开放的框架外,实现更高水平的警务数据开放。

第四,利用现有合作框架探索警务数据开放的新模式。开放数据更新的频率可以由公安机关根据自身工作情况或者掌握的数据决定,但警务数据开放除此之外还要考虑公开多少数据、公开哪些主题的数据以及如何公开数据等问题,完全依靠我国警务部门现有的人力、物力以及技术能力可能难以完成数据开放的任务。而警企合作、校局合作等现有的合作框架为问题的解决提供了更多的可能,而且通过多方合作,警务部门可以在数据标准完善、平台功能创新等方面做出更多的探索。通过收集各方的反馈意见,警务部门也可以对数据和平台本身不断进行更新,不断提升数据的准确性、丰富性以及平台应用的便捷性。

当前国外警务数据开放平台的建设经验为我们提供了有益的借鉴。在科技强警和智慧警务、数据警务建设不断深化的今天,我国的公安机关相比国外警务部门拥有更为丰富的数据资源,如何更大范围、更深层次地释放这些数据的价值,让数据资源“反哺”公安警务实践,警务数据开放是一条值得探索的重要路径。

猜你喜欢

开放平台警务犯罪
公园里的犯罪
基于百度地图开放平台的导航电子地图课程实践教学研究
新形势下警务战术指挥
基于在线开放平台的混合式课堂教学模式构建与实践
Televisions
浅谈警务指挥自动化系统的建立与运行
基于AliGenie语音开放平台的传统家居智联网解决方案
探究警务战术的本质、知识生成与运用
环境犯罪的崛起
警务训练中腹痛的成因及预防