图像识别在甘肃智慧水利中的应用
2022-06-11吴海燕李效宁
吴海燕 李效宁
摘要:河道的治理建设是现代生态城市建设中一个重要的环节。其意义就是构建良好循环功能的水生态系统,然而,乱建乱采乱挖、垃圾的倾倒,导致河道主流偏移,冲刷或淤积加重,堤防基础淘刷、堤岸坍塌等,严重影响了其防洪、生态功能的发挥。因此,及时准确地发现可为快速解决相关河湖问题提供重要的支撑。鑒于此,本文将图像识别技术与目标监测模型相耦合,建立了基于图像识别技术的多场景通用目标监测模型,提出了“定区域复制-粘贴”的数据扩张新方法,提高对现实场景的检测识别精度。此外,为打破水利监管对象分布广、散、偏的局限,通过将不同场景的算法与计算资源解耦,建立了资源的动态分配和算法的高效运行模式,为水利管理活动的管理范围、管理单元和管理对象的有效监管提供了即时和主动的技术保障,满足了机动、实时、直观、高效的“强监管”要求。最后,本文通过黄河干流白银段智慧河湖试点应用,实现了基于图像识别技术的人员/车船闯入、乱建乱采、垃圾堆放、河面漂浮物事件的自动准确识别,通过2021年数据发现,该模型的总体识别准确率能达到94.9%,效果显著,尤其对河道漂浮物、人员闯入的识别准确率达到100%。研究成果对于促进我国水利相关业务的智能化管理具有重要意义。
关键词:目标检测;图像识别;k-means聚类;定区域复制-粘贴数据扩张;计算资源调度;API总线;识别准确率
一、研究背景
随着国家重点水利信息化建设项目的实施,以防汛指挥系统、水资源监控能力建设等一批水利部重大项目为依托,甘肃已初步形成了以“山洪灾害防御、水资源监控、河湖管理、水土保持监管”等业务为主的具有甘肃特色的水利业务信息化体系。但是对比于当前快速发展的大数据、人工智能等技术,甘肃省水利信息化建设还存在透彻感知不全、基础算力不足、资源利用不充分、应用覆盖不高、智能化水平较低等问题[1-2],尤其是现有信息化系统智能程度较低,缺少针对水利业务管理的人工智能算法应用,难以有效支撑解决河湖监管、水资源精准调配决策、水旱灾害防御、水利工程安全运行等水利工作的需求。
鉴于此,为了提供紧密结合水利业务场景、稳定可靠的人工智能实现能力,本文依托于大数据挖掘、人工智能等关键技术,构建了基于图像识别技术的智能中台微服务技术架构,建立了基于图像识别技术的多场景通用目标监测模型[3-4],实现了基于智能中台的图像识别技术在甘肃智慧水利业务管理活动中的应用,旨在提供稳定可靠的人工智能技术服务,以期在水利业务管理场景中创新管理手段,提高管理效率。
二、多场景通用目标检测模型构建
经过多次实验对比,选出几种较合适的算法进行组合来实现多场景通用目标检测。从模型结构到输出结果的后处理过程,相关的算法以及对应关系如图1所示[5]。
首先将图片重新定义尺寸为640×640×3,输入到检测模型中,使用CspDarknet模型进行特征提取。CspDarknet在使用过程中去掉了原网络最后的池化层、全连接层以及softmax层,此模型在保证对特征进行超强表达的同时又避免了网络过深所引起的梯度消失的问题。将CspDarknet生成的特征图送给金字塔注意力模型(Path aggregated network, PAN),PAN网络使用自顶向下和自底向上多尺度特征融合的手段,同时传达了强语义特征和强定位特征。将PAN输出的特征图传给Yolo模型的head模块得到预测结果。模型的预测结果包括两部分:通过sigmoid函数获取每个预测框属于每个类别对应的概率值即类别概率,以及预测框对应的偏移量tx,ty,th,tw,四个偏移量分别代表目标框的中心点坐标的偏移,以及高和宽的偏移。
在VOLO模型中,锚框大小的计算就是采用的k-means聚类的方法形成的。从数据集中随机选取K个点作为初始聚类的中心,中心点为C={c1,c2,...,ck};针对数据集中每个样本xi,计算它们到各个聚类中心点的距离,到哪个聚类中心点的距离最小,就将其划分到对应聚类中心的类中;针对每个类别i,重新计算该类别的聚类中心ci=1/|i|∑x;重复上述两个步骤直到聚类中心的位置不再发生变化后即可获得锚框。K-Means聚类方法有着原理简单、容易实现、收敛速度快、聚类效果较优、算法可解释度比较强、容易调参等优点。通过k-means聚类方法生成锚框,以锚框为参考通过公式(1)将模型输出的偏移量转换成预测框[6-7]。
(1)
其中,xa,ya,wa,ha分别对应锚框的中心点坐标以及宽、高, bx,by, bw, bh分别代表目标框的中心点坐标、宽、高。
转换后预测框和锚框的数量相等,而检测的最优结果是一个目标对应一个目标框,所以设定阈值score_thre和iou_thre过滤预测框。score_thre可以将概率值小于此值的预测框过滤,iou_thre用于预测框的去重,计算预测框之间的交并比,将交并比大于此阈值的预测框过滤,通过两次过滤,可使得每个目标都会获得一个目标框。表1是智能中台中不同目标检测任务所设定的最优阈值。
模型训练过程中,使用focal loss和CIoU loss进行训练,并采用多尺度的训练方式来提高模型的性能。针对训练数据,使用高斯模糊、镜像翻转、色彩抖动、gamma变换和grid mask在已有的数据上进行数据增广,以此来增加数据的多样性。
三、定区域复制-粘贴数据扩张方法
前述所提到的数据增广方法虽然可以增加数据的多样性,但是针对特定场景提升模型性能有限。对于模型而言,无论使用什么数据变换方式,都不如增大数据量来提高模型的性能。然而,甘肃智慧水利图像检测识别的应用场景试点,主要针对人员/车船闯入、乱堆乱建、河面垃圾漂浮物、模拟量度量等目标群体稀疏、样本随机、检测困难,一段时间内可以采集到的数据量有限,精度难以保证的水利管理活动场景中。当前水利行业内的检测算法(包括算法的组合),主要集中在公共数据集的测试环节,是对检测结果的理论验证。而在真实场景中,由于现实场景和公共数据集的场景存在一定差异性,模型在公共数据集上取得较优性能的同时,也要保证在甘肃智慧水利的现实场景中达到“检无遗漏”的效果。经过多次实验,最有效的方法就是添加实际场景的数据到公共训练集中同步训练,可以获取少量真实数据的前提下使用“复制-粘贴”的数据扩张方法进行真实数据补充。
2020年Golnaz Ghiasi等人采用了随机复制-粘贴的方法进行数据扩张:原图片与目标图片随机选择、原图片中复制的目标随机选择、粘贴的位置随机选择。这种随机的复制-粘贴的方法虽然可以简单有效地提高数据量,但是针对某些特殊场景会存在误差。例如,在进行漂浮物的检测时,模型会把岸边的雜草误检成水草,如果再出现随机粘贴的漂浮物出现在岸上,则模型误检率会大大提高。鉴于此,本文对粘贴的位置进行了限定,提出了定区域复制-粘贴数据扩张方法。
该方法的实际操作过程如图2所示,先将一定数量包括目标的原图输入到deeplab v3分割模型中,将所需要的目标切割出来进行多尺度放大或者缩小,然后将所有子图进行保存。采集现场大批量不同时间段的真实图像,将子图随机粘贴到采集的图像中,并限制每幅图像上最多贴5个子图。此时,会生成一些不合理的数据,由于在同一场景下,监控摄像所获取的区域在一般情况下不会发生改变,所以本文通过对场景进行画绊线的方式进行区域限制。在摄像头的画面上通过描绘有限个点构成一个封闭区域,并保存这些坐标点,然后设定绊线区域覆盖率,计算子图在绊线区域内的面积area,如果则子图保留,否则删除[8-10]。
四、场景模型调度系统
场景模型调度系统通过多场景的不同算法与计算资源的分层解耦[11],实现场景-算法-计算资源-调用的多线动态匹配,满足随机突发事件的多场景(人员/车船闯入、乱堆乱建、河面垃圾漂浮物)目标识别的监管需求,场景模型调度原理如图3所示。
模型调度包括算法管理、任务分配、计算资源调度和API总线等。
(一)算法管理。算法管理模块实现算法注册、计算模块注册、资源注册等管理功能,从而实现对各种算法模块的纳管。
(二)任务分配。各算法模块进行注册之后,在下达计算命令时按照需求拉起相关计算资源,将生成的结构化数据或计算结果写入算法注册的输出中间件或者其依赖的固定资源。
(三)计算资源调度。任务分配根据制定的任务策略,将CPU/GPU等计算资源分配到不同的算法和引擎去执行计算任务。在容器服务的部署方式下,仍然能够实现GPU计算资源动态地被不同的算法和引擎进行调用。在边缘计算架构中,计算任务从位于网络中心的云服务器下沉到与视频源物理接近的边缘服务器或者智能终端设备上,可以卸载到设备-边缘-云3个层级中,拥有一定计算能力的智能设备和边缘服务器能够在视频源附近直接处理大部分存储和分析任务,云服务器仅在必要情况下提供计算支持和异常检测等复杂任务,实现基于云边结合的超大规模视频分布式实时处理和大规模视觉计算的动态资源分配与任务规划。通过计算任务的动态流水调度,实现计算节点的负载最优,最大化计算资源利用率。
(4)API总线。API总线结合注册信息自动识别算法和引擎API的后台调用路径,通过数据封装与转译,实现多算法和引擎API的路由和动态调用。
五、场景应用及结果分析
甘肃省智慧河湖管理系统前端使用React框架及Antd UI库搭建Web功能及相关业务功能界面,后端使用SpringCloud微服务架构提供后端服务,数据存储使用数据中台服务及Redis非关系型数据库。
在甘肃智慧水利黄河干流甘肃白银段智慧河湖试点中,基于智能中台的多场景视频识别分析能力,实现了人员/车船闯入、乱建乱采、垃圾堆放、河面漂浮物事件的自动准确识别。同时,与省级河湖长制信息管理系统实现数据、流程的有效衔接,可为各级河湖长决策、部门管理提供服务,为河湖的精细化管理提供有效支撑[12]。
(一)应用场景
1.视频预警预报
智慧河湖视频预报预警提供包括水位信息、河道漂浮物及非法采砂的 识别与预警、重要水利工程非法入侵等场景。预警信息自动生成事件信息,发送给对应辖区的河长办及相关单位,河长办及相关人员可以在接收到预警事件并进一步做后续处理及跟踪。
2.遥感分析
通过历次遥感影像对比分析,生成的各类遥感监测及分析数据等相关成果,在智慧河湖试点应用中进行综合应用及展示,为全面、及时地了解辖区内地表水资源、水环境及水生态的整体概况及变化情况提供支撑,为各级用户开展河湖治理和相关管理工作提供有力依据。可选择查看不同时间的遥感影像信息,提供卷帘同屏对比,遥感影像识别的事件以图斑形式展示。用户可通过点击地图中的图斑查看包括图斑影响范围、事件类型、位置信息等属性信息。
3.无人机巡河
通过无人机巡河,实现巡河高清视频的实时回传,无人机可通过预设方式实现指定时间段、指定路线的自动巡航,使用户直观快速地获取信息,精准识别涉河事件,提升响应速度,同时系统支持历史巡河视频的回放,包括巡河轨迹、巡河事件、巡河报告的查看。
4.事件处理
基于视频识别、遥感分析、无人机巡查、人工巡查等手段发现的疑似违法事件,系统自动形成疑似事件记录,推送至对应的河长,河长收到系统自动推送的事件信息后,可前往现场进行核查确认,同时支持对核查过程的记录,并确认是否为有效事件。经确认的事件,河长可将事件转办至相关责任单位进行落实。河长现场确认的有效事件,系统自动生成事件问题整改台账,并对于事件进行溯源分析,确定污染源或违法生产的企业或个人,下达整改通知书,明确整改内容及时限,对于整改结果进行复核确认,经确认满足整改要求的事件系统将进行自动销号处理。根据涉河事件的性质以及严重程度,水行政执法部门可对违法企业或个人进行行政处罚[13]。
(一) 2021年试点应用分析
根据智慧河湖管理系统数据分析可知(如图5所示),2021年白银靖远黄河段共识别出河湖事件14201件,其中发生事件最多的类型为:人员闯入,约占事件总数的82%。河面漂浮物事件较上一年增加7件,在安宁渡水文全景站多发;人员闯入事件较上一年增加11642人/次,在原乌兰码头多发;船只监测事件较上一年增加2278件,在水川湿地公园多发;倾倒垃圾事件较上一年增加8件,在水川湿地公园多发;乱堆乱建事件较上一年增加0件。经系统分析,本年(2021年)白银靖远黄河段发生事件最多的时间段:2021-09。当前时间内(2021-09),发生最多的事件类型:人员闯入;发生最多的事件地点:原乌兰码头。
基于2021年数据,通过人工复核对比发现,本文所建立的基于图像识别技术的多场景通用目标监测模型的准确总体识别率能达到94.92%,但是对于人员闯入和船只的监测可能还需要进一步提升,准确率只有94.49%,对于人的行为的分析也还有待提高,对于船只闯入的监测较为准确,能达到96.58%,截至目前,倾倒垃圾和河面漂浮物事件数比较少,数据样本有待进一步完善,但对于倾倒垃圾和河面漂浮物这种特点明显的行为,识别准确率能达到100%。
该方法的成功应用,改变了传统视频“被动监控”和“智能硬件识别”的弊端,采用后端AI算法[14],一方面可以通过能力的复用来节约成本,另一方面可以通过在同一画面场景的多事件识别来提高时效。通过复用AI算法技术,当前全省各级普通的视频监控,在不更换设备的情况下,可实现视频的智能分析和應用,这一技术成果的实现对于甘肃省智慧水利科学研究与工程应用具有重要意义。
六、结束语
本文依托于大数据挖掘、人工智能等关键技术,构建了基于图像识别技术的多场景通用目标监测模型,实现了基于智能中台的图像识别技术在甘肃智慧水利业务管理活动中的应用。通过构建“定区域复制-粘贴”的数据扩张算法,有效降低了对随机、多样、环境影响大的现场样本的误检率;同时,运用场景模型调度,实现了场景目标-算法-检测-应用的高效管理,保证目标的准确检测和应用的快捷调用。通过甘肃智慧水利黄河干流甘肃白银段智慧河湖试点应用发现,所建模型的总体识别准确率能达到94.92%,尤其对河道漂浮物、倾倒垃圾的识别准确率达到100%。
作者单位:吴海燕 李效宁 甘肃省水利厅信息中心
参 考 文 献
[1]赵斌,戴英侠.基于Unix系统调用的数据挖掘算法[J].计算机工程.2004.(03).
[2]郭原东,雷帮军,聂豪,李讷.基于深度学习的智能高精度图像识别算法[J].现代电子技术.2021.44(04).
[3]邓定胜.一种用于图像识别的稀疏增强概率协同表示分类算法[J].实验室研究与探索.2021.40(01).
[4]宋叶帆,王国书,盛步云.一种混合阈值剪枝的稀疏化训练图像识别算法[J].科学技术与工程.2021,21(02)
[5]李鹏松,李俊达,吴良武,胡建平. 基于阈值分割法和卷积神经网络的图像识别算法[J].吉林大学学报(理学版).2020.58(06).
[6]王曙燕,王超飞,孙家泽.基于方法调用关系的软件测试序列生成算法[J].计算机工程与设计.2018.39(10).
[7]赵刚,宋健豪.基于系统调用时间特征的异常行为智能检测系统[J].计算机应用与软件.2015.32(04).
[8]张莉,张斌,那俊,朱志良.Web服务调用特征模式的DBSCAN提取算法[J].小型微型计算机系统.2013.34(02).
[9]王宇,刘文予,罗宁.基于扩充数据源的系统调用异常检测算法[J].计算机与数字工程.2006.(01).
[10]中国科学院北京国家技术转移中心.基于视频分析技术的交通事件检测系统[J].中国科技信息.2021.(11).
[11]罗会兰,王婵娟,卢飞.视频行为识别综述[J].通信学报,2018.39(6).
[12]陈晨. 模型库管理和远程调用的研究与实现[J]. 福建电脑, 2011, 27(12):2.
[13]冀燕丽,段海涛.智能视频监控系统中视频图像分析的关键技术研究[J].中国信息化.2019.(02).
[14]周佳奇.人工智能在视频监控中的应用[J].中国公共安全.2017.(07)