APP下载

网约车安全事件的预测研究

2023-10-16侯立文

上海管理科学 2023年5期
关键词:司乘网约冲突

余 琴 侯立文

(上海交通大学,上海 200030)

0 引言

在“互联网 +”时代,网约车普遍被人们接受和使用 ,在社会中扮演着越来越重要的角色,但随之产生了诸如网络生态治理缺位、服务平台规制欠缺、安全问题突出等问题,其中安全问题最受关注。近年来我国发生多起网约车乘客安全的恶性犯罪事件。2018年5月初,空姐李某在郑州搭乘滴滴顺风车途中,遭到司机残忍杀害。2018 年8月25日,浙江省乐清市 20 岁女孩赵某也遭到滴滴顺风车司机的抢劫,并被残忍杀害。网约车安全问题频发不仅涉及侵犯人身和财产安全、危害公共安全、妨碍社会监管制度等,更成了部分犯罪事件的导火索。同时,网约车是共享经济的重要组成部分,是“互联网+”的代表,网约车安全是共享经济安全的一个缩影,研究网约车安全问题可以为网约车行业乃至共享经济行业良性发展提供一定参考。

本研究将冲突事态严重程度定级预测作为研究目标。冲突事态严重程度定级是网约车安全事件管理中的重要环节,它连接了安全事件识别和安全事件干预这两个环节。安全事件识别环节目的是识别出可能引发司乘冲突的订单,本研究用冲突事态严重程度来量化。安全事件干预目的是在冲突升级形成负面影响之前,采取措施去阻止安全事件的进一步恶化,往往不同的冲突严重程度对应着不同干预措施。安全事件干预需要根据上一环节预测出的冲突事态严重程度采取相应措施,因而研究冲突事态严重程度定级对于网约车安全事件管理有着重要理论意义。另一方面,通过预测冲突事态严重程度定级来主动识别可能引发司乘冲突的订单的管理模式对网约车平台有一定启示作用,在冲突升级形成负面影响之前,就对冲突进行风险控制管理,从被动地以司乘冲突发生后的应急方式为主的事后风控阶段,提升到通过机器学习模型主动发现风险的主动防御型的事中风控阶段,实现风险的内部消化,也将地有利于网约车平台的文明创建工作,打造文明出行环境,保障与维护司乘双方权益。因此,研究网约车司乘冲突严重程度定级具有一定理论意义。

目前网约车安全领域的研究并不多,管理学界已有研究主要关注网约车安全现状、网约车风险及规避手段、网约车安全问题及其影响,具体见表1。大多数研究从定性角度出发来研究网约车安全风险,沈霄鹏和王婷(2018)通过定性分析、案例分析来探讨网约车行业中道德缺失现象及治理对策,孙兴军(2016)通过定性分析来研究网约车风险及规避手段。定量角度的话,主流做法是通过问卷调查来收集用户对网约车安全的认知,Lee(2017)通过问卷调查结合结构方程模型来研究乘客对网约车相关的行程保障、人身安全、额外费用(索高价)三类风险的认知和这种认知对实际网约车使用的影响。目前,国内外还未有实证研究来探讨网约车司机和乘客在网约车服务过程中产生冲突的文献,主要有以下两个难点:第一点是冲突新闻收集的难度,从各大信息资讯平台尽可能多地收集来源可靠的新闻是一项费时费力的工作;第二点是对于冲突新闻后续的文本分析带来的难度。因而,本文从实证分析出发来研究网约车安全问题中的司乘冲突严重程度定级预测。

表1 文献汇总

1 安全事件过程分析

1.1 安全事件典型过程

以下为一个完整的司乘冲突新闻:“某日,司机A驾驶网约车将乘客B送达本市C小区附近,乘客B在下车过程中与司机A因XX发生口角,后相互推搡、厮打。其间,司机A用拳头击打乘客B头面,致乘客B面部多处受伤。经法医学鉴定中心鉴定,乘客B轻伤二级。经乘客B报警,公安机关赶至现场,并于当日将司机A传唤到案。”整个冲突过程可由事件属性来刻画,具体可由以下四元组来描述:冲突属性、冲突缘由、冲突行为、冲突严重程度。冲突属性包括冲突时间、地点、角色三项。引发司乘冲突的缘由多样且复杂,和具体的冲突场景紧密相关。冲突行为是冲突双方在冲突过程中采取的措施,双方既有可能互不相让进而冲突升级引发肢体冲突,也有可能各退一步。而冲突严重程度直接受冲突属性、冲突缘由、冲突行为影响。对于这类型的具体测量,目前并没有形成一个较为系统的划分标准,基本依据人的主观经验判断。对于冲突烈度的归类,也亟待权威部门制定相应的划分标准,以按冲突的不同程度采取相应的措施。

达伦多夫在论述社会冲突的程度时,提出强度和烈度的概念。其中,强度表示社会冲突过程中各冲突主体投入力量的程度,包括人数多少、权利大小等因素;烈度表示冲突的方式,如和平协商、暴力解决、社会行动等。李涛、苏曦凌根据冲突程度对社区冲突进行类型划分时,基本参考达伦多夫提出的强度和烈度两种概念。张苏在关于交通冲突程度的研究中指出交叉口交通冲突严重程度可由单位时间事故发生概率的数学期望表示,也可以由冲突本身表现出来的特征来界定。本研究主要就司乘冲突的严重程度进行定级预测,在提取特征时参考达伦多夫提出的冲突强度和冲突烈度两个概念。

1.2 变量定义

本文的被解释变量为网约车司乘冲突事态严重程度等级,根据上述四元组进一步细化,初期共提取出16个特征,如表2所示。对于大部分特征,本文采用文本挖掘手段通过Python编程语言来进行特征提取,对于无法自动化提取的特征,采用人工手动标注来实现全量数据的特征提取。其中,特征Action_set指的是冲突双方在冲突过程中用的动作,本研究从冲突过程中可能引发的冲突动作出发,定义了操作不当、酒驾、口角、盗窃、言语行动骚扰、猥亵、抢劫、非持械伤害、持械伤害、强奸、杀人以上11个冲突动作的集合,给每个动作赋予一个严重等级,数值越大表示冲突事态越严重。为了使不同动作对应的冲突事态严重程度尽可能有区别,比如让杀人和口角之间对应的分值差距尽可能大,可使用一个转换函数来重新界定每个动作的严重程度。本研究采用的是数字2的幂次方来表示。本研究将各动作对应的严重等级定义如下:操作不当:1;酒驾:2;口角:2;盗窃:3;言语行动骚扰:3;猥亵:4;抢劫:4;非持械伤害:4;持械伤害:5;强奸:5;杀人:6,则各动作对应的严重分数按照2的幂次方计算如下:操作不当:2;酒驾:4;口角:4;盗窃:8;言语行动骚扰:8;猥亵:16;抢劫:16;非持械伤害:16;持械伤害:32;强奸:32;杀人:64。如果一条新闻中涉及两个及以上的动作,则该新闻司乘冲突严重程度对应的分数为各动作对应分数的加和。

表2 变量汇总

表3 Kappa系数分类标准

2 模型

2.1 数据收集与特征工程

以“网约车”为核心关键词,分别以中国裁判文书网、互联网新闻库和图书馆文献库为范畴查找资料,从不同信息源来进行资料的收集。中国裁判文书网是司法机关统一公布各级人民法院生效裁判文书的官方网址,互联网新闻库包括今日头条、微博等资讯平台。随后,为了保证有效信息的提取,逐条阅读每条新闻,筛除掉不满足四元组定义的新闻,仅保留满足四元组定义的新闻,以确保有效信息的提取。随后,再对所有搜集到的资料进行内容阅读、噪声数据清洗、分类、要点提炼,形成可用于该问题研究的数据基础,共收集了从2015年1月至2020年10月全国范围内网约车司机和乘客发生冲突的新闻161条,其中刑事案件56条。

在初期特征提取步骤中,对于大部分特征,采用文本挖掘手段通过Python编程语言来进行特征提取,对于无法自动化提取的特征,采用人工手动标注来实现全量数据的特征提取。我们希望尽可能提取更多的特征,可提供更多信息用以准确描述问题,使得模型解释性更强。但当维度超过一定值时,会引起“维度灾难”,在保证学习算法预测精度前提下,训练所需样本会随着维度提升呈现指数形式提升。对于161条数据和16个特征易引发“维数灾难”,模型易引发过拟合问题,需从原始特征中筛选出“好的”特征,剔除掉“不好的”特征。“好的”特征指对模型贡献度大的、与任务相关性强的特征。“不好的”特征指冗余特征、无关特征和噪声等。本文采用决策树模型来进行特征提取,在已知数据上构建决策树模型,决策树每次分叉都会选择对信息熵影响最大的特征,根据特征分叉的先后顺序模型可以获得每个特征所属的权重,按照特征对应权重由大到小排列,可以获得特征重要性排序。

如图1所示,可以看到排名靠前的3个特征按照特征贡献度从大到小分别是冲突事件双方采取的行动集合得分、冲突事件中过错方所受处罚、受害者人身伤害状况,对应的特征重要性分别为0.2462、0.1983、0.1233,这也与社会大众判断一起司乘冲突严重程度的经验相一致,冲突事件中冲突双方采取的过激肢体行动越多、越严重,则司乘冲突事态越严重;冲突事件中过错方所受司法处罚越重,则司乘冲突事态越严重;受害者所受人身伤害越重,则司乘冲突事态越严重。排名靠后的5个特征分别是司机身份状态、司机神志状态、受害者身份、有无前科、受害者在冲突过程中遭受的财产损失,这5个特征对模型的重要性均小于0.02,分析认为是这5个特征大部分都是默认值,所取的值较少,因而不利于模型学到更有用的信息。以受害者身份这一特征为例,95%的受害者是乘客,5%的受害者是司机,这一特征给模型带来较小的贡献度。我们设置阈值为0.02,特征贡献度大于阈值的特征将会保留用于后续操作,特征贡献度小于阈值的特征将会舍弃掉,以此达到特征筛选的目的。

图1 特征重要性柱形图

用决策树算法筛选出更重要的特征后,下一步对各列特征进行特征缩放。为了消除指标之间的量纲影响,一般需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。特征缩放包含两种主要的方式:Min-Max标准化和Z-score标准化。转化函数分别如式1、2所示。本研究采用两种特征缩放方式进行对比验证。

2.2 模型训练

司乘冲突严重程度定级中,本研究采用百度众测平台来为新闻中涉及的司乘冲突严重程度进行标注。“百度众测”是国内最大的数据标注平台,提供专业、高质量、高标准的数据标注服务。本研究将自己的新闻标注需求发布在百度众包平台,让标注人员按照自己的先验看法对每条新闻中司乘冲突严重程度进行标注,其中1~4表示从不严重到最严重。为了保证标注人员对每条新闻冲突严重程度标注的独立性和先验性,本研究告知标注人员按照他们个人对一起司乘冲突严重程度的先验看法来标注。每一条新闻冲突严重程度取决于所有标注员给的标注里的众数。

本次研究对象是一个多分类问题,即预测网约车司乘冲突严重等级程度,所以选择以下经典分类算法——逻辑回归、随机森林、SVM、朴素贝叶斯,进而比较哪个模型更适合本次研究对象的样本。多分类评价指标其中一种方法是将多分类问题转化为多个二分类问题进行讨论,多分类的精确率、召回率依据每个标签的精确率、召回率再取其加权平均得到;还有一种是直接定义的多分类指标。本研究采用的是Kappa系数,借用Cohen提出的Kappa系数分类评价标准。

2.3 模型效果展示

表4显示了使用逻辑回归、朴素贝叶斯、SVM、随机森林四种算法,以及每种算法使用Min-Max方法和Z-Score方法进行无量纲化后的精确率、召回率、Kappa系数对比。研究发现,在三种不同分类算法中,Min-Max标准化和Z-score标准化后相比未使用特征缩放的模型,效果均有略微提升。在使用逻辑回归、随机森林的情况下,模型验证不同特征处理方法的识别率都很高,说明数据模型构造得都很合理,在验证集的表现良好。而在贝叶斯算法中,模型精确率、召回率不足50%,Kappa系数也落在分类效果一般的区间,说明构造模型的泛化能力很差。

表4 模型预测识别准确率对比

本研究中贝叶斯算法效果不太理想和随机森林、逻辑回归效果理想也是可预见的。贝叶斯算法假定所有输入属性彼此是独立的,但现实中经常发生不满足条件独立性的情况。在本研究中变量之间并不满足相互独立的情况,比如Personal_injury和Punishment成正相关。而随机森林算法是一种集成算法,它随机选取不同的特征训练样本,生成大量的决策树,然后综合多棵决策树的结果来进行最终的分类,因而在数据上表现优异。

3 讨论和启示

本文立足于中国网约车安全治理体系下的司乘冲突事件频发的现状,从实证分析角度出发,对中国法律文书网和权威资讯网站的网约车司乘冲突新闻进行了深入研究。在机器学习的研究上,深入研究和运用了逻辑回归、随机森林、SVM、贝叶斯机器学习等算法,并在深入研究可能引发司乘冲突事件的基础上运用大量特征工程方法来加工样本数据,训练出了具有高识别能力的机器学习模型。研究证明了网约车平台通过机器学习来识别可能引发司乘冲突的订单的管理模式是完全可行的,在形成负面影响之前,就对冲突进行风险控制管理,这属于主动防御性风险控制管理,从被动地以司乘冲突发生后的应急方式为主的事后风控阶段,提升到通过机器学习模型主动发现风险的主动防御型事中风控阶段,实现风险的内部消化,也将更有利于网约车平台的文明创建工作,打造文明出行环境,保障与维护司乘双方权益。

但本文的研究还存在以下不足:(1)在数据方面,本文的研究数据为2015年1月起网约车司机和乘客发生冲突的新闻,共收集到161条新闻,因此在后续研究中可以继续收集有关这方面的新闻来扩大样本量。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。(2)在特征提取方面,本研究从冲突发生时间、地点,冲突双方年龄、状态,冲突所用工具,冲突事由,冲突发生后所造成的财产损害、人身伤害,施害者受到的处罚等尽可能对冲突进行事件画像,初期共提取出16个特征,后续研究可在数据量有一定增加后,再继续提取更多的特征以提供更多信息用以准确描述冲突事态,使得模型解释性更强,特征研究结果也将更加充满说服力。(3)在算法方面,本文应用了随机森林算法、朴素贝叶斯算法、SVM、逻辑回归算法,但不能说明这些算法是最佳算法。如数据量增加,可尝试构建一份司乘冲突的语料库,再基于语料库采用LDA算法,进行主题挖掘。

猜你喜欢

司乘网约冲突
网约车平台责任条款的识别方法——基于解释进路的正当规制
耶路撒冷爆发大规模冲突
优化司乘测酒装置过滤性能的探讨
“三宜”“三不宜”化解师生冲突
网约车侵权责任在司法实践中的认定
网约车问题研究及对策
网约车安全性提高研究
地铁司乘管理信息系统的设计与运用分析
昌九的“心路”历程
——“昌九心路”品牌建设纪实
化解司乘冲突,多谈规则少谈素质