APP下载

建筑废弃物全过程管理电子联单判别模型研究

2021-07-14张晓峰田英杰金典琦王付军

关键词:渣土台账工地

张晓峰,田英杰,金典琦,毕 军,2,王付军

(1.北京交通大学 交通运输学院,北京 100044;2.综合交通运输大数据应用技术交通运输行业重点实验室,北京 100044;3.深圳市城市公共安全技术研究院,广东 深圳 518000)

近年来,随着我国经济社会和城市建设的快速发展,尤其是城市轨道交通、旧城改造及大批重点工程项目的开工建设,建筑废弃物排放量呈爆炸式增长,现行的基于纸质联单建筑废弃物监管模式无法应对日益增长的建筑废弃物监管需求。随着车联网、大数据等技术蓬勃发展,给建筑废弃物全过程监管提供了新思路。基于电子联单的建筑废弃物全过程监管模式应运而生,根据工地和消纳场的真实边界在地图上虚拟出电子围栏,辅助判断渣土车是否进入工地消纳场区域。当渣土车识别到电子围栏后,渣土车在电子围栏内的停留时长、车载设备状态变化情况都会进入渣土车监管系统,在渣土车离开电子围栏时,系统会生成一条包含统计结果信息的记录。通过判断该记录中渣土车在工地和消纳场内是否有装卸行为,识别渣土车运输的起始点和终点,最终实现建筑废弃物产生地和消纳位置自动识别、自动监管,使每方建筑废弃物都有迹可循。能体现渣土车在电子围栏内装卸建筑废弃物的记录称为电子联单,渣土车经过电子围栏生成的记录统计结果的信息被称为节点。现有判别电子联单方法主要通过车载传感器实时显示渣土车的运输状态和运输位置,当车辆到达工地电子围栏内并有装卸土行为即判断联单开始,当渣土车到达消纳场并有装卸土行为即判断联单结束,包含这个过程的一条记录即为一条电子联单。这种判别方法在试运行初期,能够保持一定的精度。然而,在运输行为发生一段时间后,车载设备出现故障,使采用这种判别电子联单的方法无法保证精度,大大降低了建筑废弃物监管效率。在此背景下,充分利用含有较多噪点的渣土车车载设备数据,制定合理的电子联单判别策略,对提升建筑废弃物监管水平具有现实意义。

目前,针对电子联单判别的相关研究主要集中于人工输入和自动识别2个方面。人工输入方面,电子联单就是纸质联单电子化的一种表示形式。文献[1]中,运输企业在危废管理系统中登记电子联单,包含危险废物的产生地和消纳地等信息,通过人为记录的方式判别电子联单。文献[2]中,工地申报项目时在建废管理系统中指定运输单位和消纳场,运输废弃物时,运输车辆向系统输入起点工地,在消纳场所设置车牌识别等设备,自动检测并生成电子联单。文献[3]中,电子联单每个环节设置操作人员,利用PDA设备在每个阶段进行联单录入管理系统,渣土车消纳完成以后录入生成电子联单。自动识别方面,利用物联网设备自动识别渣土车。文献[4]中,利用车载传感器和GPS设备进行电子联单自动判别,当渣土车GPS进入工地时检测渣土车厢体是否变化,如果发生变化,则该工地作为电子联单起始点,当渣土车到达消纳场后,厢体状态发生变化则该消纳场为电子联单结束点。文献[5]中,在工地和消纳场安设地磅和车牌识别模型的方法,判别车辆在工地和消纳场内是否存在装卸土行为,以此作为电子联单的起始点和结束点。

目前,关于电子联单人为判别策略,就是将纸质联单电子化的过程,大多需要人为介入,比较繁琐。而且建筑废弃物运输过程中,对运输人员的管理存在较大漏洞,没有考虑建筑废弃物偷排偷放的问题。现有的关于电子联单自动判别的研究,没有考虑渣土车车载设备的检测精度和数据传输过程中的数据丢失问题。工地消纳场安装相关设备成本过高,无法监测车辆运输过程,无法杜绝偷排偷放行为的发生。在实际应用场景中,渣土车车载设备传回的数据存在较多噪声和异常,仅仅依靠车载传感器和GPS位置数据无法准确判别出电子联单,极大影响政府监管效率和企业生产效益。本文针对渣土车车载设备传回的数据存在较多噪声数据,提出一种基于逻辑回归的建筑废弃物电子联单自动判别模型,能够高效准确地判别电子联单。

1 数据预处理

1.1 数据采集

本研究数据来源于深圳市建筑废弃物智慧监管系统真实运营数据,时间跨度为2019年12月1日至2019年12月10日,共筛选出质量较好的11个工地。这10 d指定工地的数据包含了判别策略所能考虑到的所有情形,也包含了所有的常见问题,在其他时间段内,其余工地的数据存在的规律和问题能够在这10 d的数据中找到解决方案。这10 d数据对电子联单判别策略的研究具有代表性。

这10 d数据主要包括进出渣土车轨迹数据、工地台账数据。台账数据包含工地车辆的车牌号、进入时间和离开时间等信息。渣土车轨迹数据包含车辆车牌信息、轨迹数据、车载设备实时检测状态。截取2019年12月1号至2019年12月10号的全部车辆轨迹数据约7 046万条,部分工地台账数据选取了对应时间段的数据共16 447条。

1.2 数据预处理

1.2.1 渣土车轨迹数据预处理

渣土车轨迹数据预处理主要包含2部分:节点生成和渣土车车载设备故障分析。因为本文研究目标是车载设备检测数据不准确的情况下,电子联单判别研究。首先对渣土车车载设备进行故障分析,明确渣土车的车载设备故障率。从设备异常次数和有联单产生,但车载设备未检测2个角度出发,分析10 d内渣土车举升、载重和厢体传感器数据和台账数据,得到渣土车的故障率约为54%。渣土车各配件故障率如图1所示。

图1 渣土车故障统计分析结果图

在划分节点的时候,自动识别车辆GPS定位点是否在工地围栏内,渣土车GPS定位点进入工地时作为节点起始时间,渣土车GPS定位点离开工地时作为节点离开时间。从全部10 d的车辆轨迹数据7 046万条数据中,按照表1所示特征进行筛选,得到83 742条节点。

表1 样本特征

1.2.2 人工台账数据预处理

人工台账中存在较多非纳管车辆、车载设备损坏和记录错误等问题,这些数据都是影响模型预测精度的错误数据,为了保证模型训练的精度,应剔除错误数据(见表2)。在16 447条台账数据中有254辆车属于非纳管车辆,覆盖了1 672条台账数据;有1辆车当天无GPS轨迹且该车辆前后1周均无轨迹数据,覆盖了30条台账数据;有273条台账记录存在记录错误的问题,在台账记录期间,渣土车所在位置与工地围栏不匹配。错误数据类型如表2所示。

表2 错误数据类型

1.2.3 节点数据预处理

筛选模型训练数据集时,假设台账的起始时间段与节点的时间段有交叉,则认为两者相匹配,即认为此时该节点被判别为电子联单。利用台账中渣土车车牌信息筛选出台账记录车辆对应的所有节点,理论上渣土车从工地到消纳场运输废弃物的过程中最多只有一条电子联单,再利用台账中渣土车进、出工地时间,匹配出电子联单所在的节点,打成正例标签,该车辆在这个时间段内其他节点均打成反例标签。节点打标签过程如图2所示。

图2 节点打标签过程示意图

2 电子联单判别模型

逻辑回归是一种用于解决二分类问题的机器学习方法,用于估计某种事物的可能性。逻辑回归常用于分类预测建模中[6],在交通领域应用广泛,但在建筑垃圾管控领域应用极少。节点的产生需要整合渣土车位置信息和车载设备信息等数据,整合过程需要进行大量计算,实现电子联单快速识别,判别策略的计算量不宜过大。逻辑回归算法计算时间短,分类精度高,能够线性化展示节点每个特征的重要程度,能够满足电子联单打分策略的实际应用需求。因此本文采用逻辑回归模型作为电子联单判别新策略。

2.1 模型变量

通过分析渣土车车载设备存在较高故障率,仅仅依靠车载载重、举升、厢体传感器状态变化完全不能判断出车辆在电子围栏内是否有拉土行为,是否产生电子联单。通过组织建筑行业经验丰富的管理人员参加座谈会,从渣土车的申报状态、停留时长等六大角度出发,研究得出25项影响电子联单准确判别的影响因素,并以此作为模型的自变量。模型自变量参数如表3所示。

表3 自变量参数

续表(表3)

2.2 逻辑回归模型构建

逻辑回归是以线性回归为理论支持,通过Sigmod函数引入了非线性因素,将线性回归的值域从(-∞,+∞)处理为(0,1),解决0/1分类问题[7]。

基于逻辑回归的电子联单判别模型[8]假设函数如下:

式中:g(x)是Sigmod函数;x表示自变量的不同状态;θ表示每个自变量的不同状态的重要程度,需要通过模型训练得出。

本文采用二项逻辑回归模型解决二分类问题。二项逻辑回归模型的条件概率如下:

式中:k是逻辑回归模型中Sigmod函数划分正反例的阈值,阈值设置为0.5,当大于阈值0.5时,y=1该节点产生电子联单,反之则y=0,该节点不产生电子联单。

2.3 参数估计

对于给定的训练集数据T={(x1,y1),(x2,y2),…,(xm,ym)},其中xi∈Rn+1,i=1,2,…,m。为了衡量模型预测结果h(θ)与真实值y之间的差异,构建代价函数J(θ),并采用梯度下降的方法不断改变θ,从而得到不断变小的J(θ),在理想情况下,当取到最小J(θ)时,得到最符合训练样本的模型,此时的θ即为最优参数。

在逻辑回归中,最常用的代价函数是交叉熵。交叉熵衡量的是在知道y的真实值时的平均偏离程度,当预测为产生电子联单,而实际就是电子联单时,偏离程度较低,反之则较高[9]。

逻辑回归函数的损失函数表示为

经过梯度下降方法[10]求解后,得到使J(θ)最小的参数θ为

将训练集中的数据代入到模型参数估计式(5)中,得到逻辑回归模型的权重系数,如表4所示。

表4 模型系数

3 实例分析

3.1 模型评价指标设计

为了进一步方便描述模型结果,做出如下定义:

电子联单准确率=台账对应电子联单数/电子联单数

式中:Ebill_acc表示电子联单准确率;Ebill_num表示电子联单数,判别策略筛选出的节点数据的数目;Cor_ebill_num表示台账对应的电子联单数,电子联单中满足台账的数目。因为在实际应用中,系统只筛选出符合判别策略的节点作为电子联单,电子联单中符合台账的即判别正确。用电子联单准确率作为模型评价指标,能够反映模型在实际应用中的准确度,符合实际应用场景的业务要求,具有较强的现实意义。模型评价指标如图3所示。

图3 模型评价指标示意图

3.2 实例验证

选取2019年12月11日至2019年12月31日的402 652条渣土车节点数据和56 341条台账数据,对提出的基于逻辑回归的电子联单判别策略模型进行实例验证。根据实际应用场景设计的评价指标,当电子联单准确率越高,则电子联单判别模型的判别效果越好,电子联单制度越容易被接受。深圳市建筑废弃物智慧监管系统现有采用电子联单判别方案,以渣土车在电子围栏内停留时长超过5 min即认为产生电子联单,在实例验证中采用传统方法电子联单的准确率为53.24%,模型结果真值分布情况如表5所示。当以0.5作为Sigmod函数正反例概率取值时,采用基于逻辑回归模型的电子联单判别模型的电子联单判别准确率为75.32%,模型结果真值分布情况如表6所示。

表5 按现有方法得出的精度情况

表6 按0.5为分阈时模型精度情况

充分考虑不同工地所属类型不一致,如地铁施工属于交通类,土建工地属于房建类。Sigmod函数对自变量预测值是个概率,逻辑回归模型二分类的阈值为0.5,当高于0.5时,产生电子联单类,反之则未产生电子联单。为了进一步提升模型判别精度,对每个工地的阈值进行单独分析,将每个工地阈值区间划分为20份,确定出产生电子联单数最多且电子联单准确率最高的阈值,将此作为该工地产生电子联单的Sigmod函数正反例概率取值。对每个工地适当降低分阈后,模型真值分布情况如表7所示。对所有节点进行判别,节点中判别为电子联单的有55 181条,其中有台账对应的是45 436条,电子联单准确率为82.34%。

表7 按工地划分适当降低分阈后模型真值分布情况

4 结论

1)提出基于逻辑回归的电子联单判别模型,使用深圳市12月11日至12月31日的台账和节点数据,对模型判别效果进行验证,模型的准确率达75.32%。考虑不同工地间的差异性,按工地独立划分分阈,此时电子联单准确率达到82.34%,相比于传统电子联单判别方案准确率提升29.1%,模型判别效果良好。

2)模型训练集只选用了10 d的数据,选用的模型是使用线性决策边界的逻辑回归模型,训练集数据量较小,非线性变量对模型参数整定影响较大。在以后的研究中,将进一步增加训练集数据量,同时选用非线性机器学习算法与逻辑回归模型进行协同判别,优化设计现有模型参数,提升电子联单判别的客观性和准确性。

猜你喜欢

渣土台账工地
探索创新 开辟渣土管理新路径
工地上的一对夫妇
波比的小工地
工作落实,一本台账起什么作用?
靖边规范基层党建工作台账
热闹的工地
建渣土工袋挡土墙室内模型试验
“监管滑坡”比“渣土山”滑坡更可怕
新型渣土车落户怀化市
韩雪峰的“台账”