城市安全生产画像构建与应用探讨
2019-11-12胡燕祝教授
胡燕祝教授
(北京邮电大学 安全生产智能监控北京市重点实验室,北京 100876)
0 引言
目前,我国正处在发展的重要战略机遇期,经济发展模式转换,传统和新型生产经营方式并存,各类事故隐患和安全风险交织叠加,既有的信息化手段难以做到安全生产周期性、关联性的分析[1]。伴随安全生产领域数据量的不断增加,数据类型和存储方式的不断更新,数据使用过程中暴露出很多问题:第一,数据来源多、规范不统一、管理条理性低;第二,现有的数据较为分散,缺乏统一的数据交互标准规范,不利于对多存储来源数据进行综合性、关联性分析;第三,安全生产领域大数据分析算法和模型研究不够成熟和深入,亟待更深层次的挖掘研究;第四,面向政府和企业安全问题的大数据决策支持模型少,综合辅助决策平台及应用少,大数据和人工智能辅助实际业务的研究不足。因此,在安全生产监管过程中,迫切需要一系列能够及时便捷检索查询、综合分析安全因素、归纳分析系统科学的理论方法。尤其是利用大数据平台进行深入业务分析、提高事故监测预警、隐患排查能力和加强安全生产监管的技术与方法。画像技术是将分布在多个存储资源的数据整合起来,以信息标签集合的形式为业务人员提供数据服务。它能够灵活地展示分析对象属性与行为之间关联性,是大数据时代背景下更加准确、快速的用户信息反馈手段。它能够降低数据获取和操作的难度,赋能业务人员参与到更加深入的数据分析之中[2]。因此,画像技术被广泛应用于各类场景中。本文将对城市安全生产画像的构建方式、特征标签、展示应用进行探讨,并以构建实例的方式加以说明,以期为提升我国城市安全生产数据化监管水平提供有力支持。
1 城市安全生产画像及其构建方法
当前,我国安全生产实时监控在各行业获得一定程度的普及,监管部门也建立多级安全生产监管系统,随之产生大量的结构多样、类型各异的监控数据。但这部分数据大多处于隔离使用、传统统计或闲置待处理的状态,其反映的安全生产深层规律尚未得到充分挖掘,难以为安全生产信息管理、风险分析和协调指挥提供有力的数据支持。因此,需要借助大数据分析来提高安全生产领域的数据利用能力,加强安全生产周期性、关联性等综合性特征分析,在做到检索及时查询、血缘分析的同时,归纳安全生产领域大数据系统分析方法,综合分析风险因素,提高对风险因素的感知、预测和防范能力[3-4]。画像分析是一种典型的大数据场景分析方法,通过将不同存储资源的数据进行整合,能够有效提高数据的利用效率,同时可以避免统一数据处理方式造成的资源浪费,精细化数据使用方式,有助于找准服务的发力方向,提高决策效率,使各类服务对象都得到最好的服务[5]。
1.1 画像特征定义
画像最早出现在电商领域,是一类真实对象的虚拟代表,是多项特征或者标签的集合。由于大数据技术的推动,电商领域利用数据手段将用户的每一类信息抽象为标签,利用标签将目标用户(用户背景、特征、性格标签、行为场景等)、用户需求和产品设计联系起来。这里的标签及本文后续将详细阐述的特征,根据场景不同叫法略有差异,下文统称为特征。画像特征是一种语境描述方式,反映的是实体和实体间、实体和行为之间的一类关系[6],如图1。
图1 画像特征逻辑模型示意图Fig.1 The sketch of portrait features
画像特征具有语义表达和短文本2个特点。语义表达要求画像特征容易理解,使用者可以直观理解特征含义和进行业务层面的分析;短文本是表示特征含义唯一,不需要进行更细的拆分[7]。这2个特点有利于画像特征进行标准化提取,省去了不必要的规约过程,为后续分析提供支持。
1.2 城市安全生产画像构建方法
画像是从语义层面对数据的综合描述,以用户为核心牵引的呈现模式。每个语义特征都是由详细的记录与统计数据支撑的,从抽象到细节去体现用户画像的数据结构[8]。不同于用户消费画像、用户行为画像、用户兴趣画像等其他领域画像,城市安全领域画像特征维度设计不存在人工属性等指标,可以从动态和静态2个角度搜集数据挖掘特征,根据不同的安全生产画像目的需要设计符合安全生产领域使用的分类方式;同时,安全生产画像的一些数据更新频率较低但又十分重要,造成城市安全生产画像的更新周期需要根据实际情况制定,如事故数据就是更新频率较低但其重要性要高于其他数据;此外,部分安全生产画像特征存在分析门槛,由于企业类型不同,体量不同,安全员对应的检查工作量也不同,发现问题数量也会随着企业类型而差异[9]。因此,在计算一些安全生产画像特征时,需要设定分析门槛,或者对原始数据做归一化或相对值处理,来保证特征结果反映的是真实的安全状况。
城市安全生产画像的构建包括明确画像目的、数据采集与清洗、分析建模和画像展示4个环节,图2展示构建安全生产画像的流程图。
图2 城市安全生产画像流程图Fig.2 Flow diagram of urban safety production portrait
1.2.1 明确画像目的
构建城市安全生产画像的第一步是明确画像目的,即画像具体的服务对象及服务内容。很多领域的画像最终沦为形式主义,其中主要的一个原因就是画像目的与实际业务相偏离,业务的目标和画像的导向不一致。因此,构建安全生产画像的第一步要从实际安全生产业务出发,以画像驱动业务为目的。
1.2.2 数据采集与清洗
数据采集和清洗的方法,因具体场景而定,一般是从各系统数据导入,建立数据仓库,再进行主题数据下的清洗。特征计算准确性的前提是数据源的准确,底层数据的采集需要采用标准的字段和可操作性的采集流程,这样才能节省分析建模时间,保证画像分析的真实性和时效性。为了构建真实有效的安全生产画像,通过规范各业务系统中数据的获取方式,再辅助以真实性判别算法,不断完善系统数据的完备性和真实性,这也有助于进一步掌握安全生产状况的全面性和准确性。
1.2.3 分析建模
分析建模是构建城市安全生产画像的关键步骤,主要包括特征维度的设计、数据对象权重设计和特征提取3个方面。
(1)特征维度设计就是以一种确定的逻辑分类方式对画像特征进行划分,可根据数据的静态和动态划分,也可以根据业务属性或者服务对象的差异进行划分。
(2)数据对象的权重设计是根据实际业务对观测数据进行预先设计。如对观测值进行分类提取和设定分析门槛,可根据企业产值将企业划分为100万以下规模企业、100~1000万规模企业等,这就是对象分类;若只关注企业产值100万以上的个体,这里100万就是分析门槛。观测数据的权重设计需要根据画像目的设定。
(3)特征提取是在完成特征维度设计和权重设计的基础上,对具体的观测对象进行数据的有效信息提取。一般可通过2种形式获得:一种是已有数据或者按一定规则加工的数据;另一种是利用机器学习和数据挖掘方法获取关联性、综合性的特征数据。当画像特征为类别变量时,需注意特征取值封闭式分类思想,也就是说该特征取值可以遍历所有类别,如世界上分为2种人,一种是学英语的人,一种是不学英语的人。
1.2.4 画像展示
画像特征往往能整理到几十种甚至上百种,特征数量与其表征的群体数量存在一定的相互制约性,即当画像特征越多,画像越清晰,画像所代表的群体数量就越小,构建画像的成本就越高。所以画像的颗粒度需要结合研究的实际需求和成本进行设计。
不同的数据对象和业务目的对应不同的特征体系。实用的画像是在整合各项计算资源基础上,以特征为分析粒度,为使用者提供便捷的交叉分析功能。城市安全生产画像的分析建模需要根据具体业务需求详细设计。
2 城市安全生产画像要素提取方法
城市安全生产的数据包括企业安全生产、政府安全监管、社会个人参与以及与此关联的经济活动全过程所形成的文本、音频、视频、图片等海量数据。这部分数据从来源角度包括4类主体:第一,对安全生产负有监管职责的政府监管部门,包括事故统计、执法检查、行政处罚、隐患排查等各类业务数据;第二,从事生产经营活动的企业,在生产过程中产生的各类数据,如监控数据、安全管理人员检查数据等;第三,企业员工在从业过程中产生的操作行为数据、管理类数据等;第四,安全中介、协会、媒体和个人等产生的安全记录、评价及舆论数据,如微信、微博、新闻、报告等安全生产相关数据[10-11]。
在实际构建安全生产画像时,需要根据具体需求和数据情况综合考虑。这里以某地应急监管部门的安全执法检查情况为例,介绍城市安全生产画像构建方法。该地应急管理部门管辖区域分为8个小区域,由8组不同的执法检查小组负责,既有数据包括为期6个月的行政检查和行政处罚数据,需要建立辅助该地应急监管部门进行安全监管工作安排与部署的画像模型。
为辅助该地应急管理部门的工作部署,从工作量、工作安排和工作质量3方面共计8项具体特征对该区域监管工作服务画像进行描述,如图3所示。需要注意的是,画像的特征体系是开放的,并不存在一劳永逸的列举结果。当业务发生调整,新的数据对象进入到业务系统,此时就需要增加相应的特征指标。因此,依据不同的业务切面和数据资源,需要灵活调整画像特征体系,以业务驱动为出发点,及时跟进数据变化,才能取得最好的画像分析效果。
8项特征从3个方面对该地监管力量的工作安排进行描述,下面将具体介绍3类8项特征的提取方式与特征值。
图3 某地安全监管画像特征设计Fig.3 Features design of safety supervision portrait in certain place
2.1 工作量类特征提取
平均检查时长表示执法队在某区域平均在每家被检查企业的所花费的检查时长,如式(1),其中ti表示执法队第i次检查时长,mins;N表示该区域的被检查企业数量,个。
平均检查量表示执法队按小组执行检查工作时,平均各组检查企业数量,其定义如式(2),其中xj表示第j个执法小组检查企业数量,G表示执法小组数量。
执法完成率Irio是指执法队实际检查企业数量Creal与计划检查企业数量Cplan之比,如式(3)。
通过对8个区域的工作量量化计算,可以获得其特征数值,如图4。
2.2 工作安排类特征提取
工作量均衡度是指各执法小组工作量的均值与标准差之比,即反映执法小组工作量波动情况的倒数。这里取倒数是为了方便和其他特征保持一致性,即该值越大表示该区域执法小组波动性越小,如式(4)。V表示工作量均衡度,其中表示该区域执法小组工作量均值,S表示该区域执法小组工作
图4 工作量特征值Fig.4 The features of workload
工作量均峰比是参考信号理论的特征提取方法,它是该区域执法小组平均检查量与前5%执法小组工作量的均值的比值,反映执法小组的数据倾斜情况,典型的有“一个人累死,其他人闲死”,如式(5)。其中表示排名在前5%的小组工作量均值。量的标准差。
通过对8个区域工作安排情况量化计算,其特征值,如图5。
图5 工作安排特征值Fig.5 The features of work schedule
2.3 工作质量类特征提取
检查力度Clevel是指各区域检查企业数量与其企业总数之比,反映了该区域执法检查的抽样力度,如式(6)。其中Ccheck表示该区域检查企业数量,个。
处罚力度Plevel是指该区域处罚企业数量与其检查企业数之比,反映该区域处罚情况。如式(7),其中Cpun表示该区域处罚企业数量,个。
处罚依据覆盖率Pcov是指该区域在处罚企业使用的依据使用次数前80%的条目数量与所有处罚条目数量之比,反映了该区域处罚过程中的依据覆盖情况,如式(8),其中Cquantity≥1-0.8表示使用次数前80%的条目数量,M表示所有处罚条目数量。
通过对8个区域工作质量情况量化计算,其特征值,如图6。
图6 工作质量特征值Fig.6 The quality features of work
3 安全生产领域画像可视化展示与应用
在完成安全监管部门工作安排与部署的画像模型维度设计和特征提取的基础上,需要考虑画像的可视化展示,为业务人员提供直观准确的支持。这里采用脸谱图形式对画像的各项特征进行综合展示。脸谱图是一种多维度数据可视化分析方式,可以将15个维度数据用人脸部位的形状和大小来表征。脸谱图在平面视角下能够形象地展示多维数据,帮助使用者提高分析判断能力,加快分析速度。
为表现各项特征的综合特性,这里补充1项整体特征,由于此处提出的8项画像特征具有业务一致性,即数值越大表示相应执法队具有更好的正面信息,因此该整体特征定义为8项特征标准化之后的和。此时,建立9项特征与脸谱图各部位的映射关系,具体对照关系,见下表。
表 画像特征脸谱图映射关系表Tab. Mapping relation table of portrait feature face map
最终可得到8个区域对应的可视化脸谱图,如图7。
图7 城市安全生产监管画像-脸谱图Fig.7 Urban safety supervision portrait-face map
从图7可看出,区域一、二和七,嘴巴较大,说明这3个区域在监管力量总体部署上优于其他5个区域。为了方便查看与比对分析,对以上8项画像特征进行聚类,将聚类分析与脸谱图相结合,其可视化结果,如图8。
从图8中可以看出,8个区域可分为4类观测。
(1)区域一工作均衡情况比较突出,其他各项特征均处于中上游。
(2)区域二工作量均衡度、工作量均峰比、检查力度和处罚力度4个特征均较低,但其处罚依据覆盖率最优,说明该区域工作小组工作量差异性大,检查和处罚比例较低,处罚类型多样。
图8 城市安全生产监管画像-脸谱聚类图Fig.8 Portrait-face cluster map of urban safety supervision
(3)区域三、五和七属于一类,平均检查时长、平均检查量和检查力度数值较大,这3个区域工作量安排较大。
(4)区域四、六和八属于一类,该类执法小组工作量差异较小,检查力度和平均检查量低,但是平均检查时长较长,并且处罚力度较大。
通过构建城市安全生产监管力量部署辅助画像,可以帮助当地监管部门迅速掌握下面各区域的具体信息和整体特点,发现区域间安全监管中的差异性;同时,通过脸谱聚类分析可以辅助当地监管部门及时掌握当地安全生产监管的整体趋势;此外,业务人员根据具体画像特征可以开展更加深入安全生产问题的研究,为当地安全生产监管部门工作部署和辅助决策提供了有力的理论和数据支持。
4 讨论
城市安全生产画像具有集成化、可视化和实时化的特点。然而,画像特征往往具有滞后性,尤其是在低频场景下,例如安全生产事故,虽然其数量少,发生频率较低,但其在安全生产领域具有十分重要的位置,需要在构建城市安全生产画像时谨慎设计分析权重。同时,由于存在事故等安全生产领域发生频率较低的部分数据,需要根据实际情况设计合适的滑动分析窗口进行画像分析。此外,业务效用是城市安全生产画像优劣最直观评价。好的城市安全生产画像一定是业务驱动的,并且其特征体系是动态的,伴随业务和时代发展,安全生产数据填报的规范性和完整性不断提高,业务描述特征会得到针对性调整,城市安全生产画像及其特征亟待持续的研究。
城市安全生产画像是在原始数据的基础上进行二次计算重构,根据画像与业务目的,提取原始数据承载的关键信息,虽然增加了计算与存储成本,但是通过逻辑设计,以核心需求为牵引,在牺牲数据计算与存储成本的同时加速了业务层分析的速度,扩展了数据分析的范围,为安全生产业务人员提供了一种不同于传统统计的直观分析模型。
当前我国安全生产领域需要不断加强安全生产监管大数据应用,提高隐患排查与监管能力。
5 结论
本文通过建立某地城市安全生产监管力量部署辅助画像,说明了城市安全生产画像的构建方法,在整合数据存储资源的基础上,挖掘各类数据深层关系,满足安全从业人员对业务分析与城市安全问题的长期需求,为安全监管由粗放式向精细化转变,由被动响应向主动预见转变,由经验决策向数据驱动转变,有效提高城市安全生产领域对大数据的利用效能,促进城市安全运行和安全生产形势的持续稳定好转。