机器学习算法在涵洞状态预测中的应用现状分析
2024-10-22高策李钰雪黎志宾
近年来,机器学习算法发展日新月异,逐渐渗透到各行业。本文就机器学习算法在涵洞状态预测中的具体应用展开系统性研究,包括应用现状、算法选择、模型指标以及存在问题等内容,以期对机器学习算法在涵洞研究领域的进一步发展和机器学习的进一步应用有所帮助。
一、机器学习算法在涵洞状态预测的应用现状
(一)算法选择
国内涵洞损伤与病害研究涵盖涵洞病害特征、成因及防治、稳定状态、裂缝成因、受力变形特征及洞体淤堵检测等。目前已采用支持向量机(SVM)算法预测公路涵洞震害,以地震烈度、场地类别、涵洞型式、洞口构造、跨径及长度等六因素为震害因子,预测准确率超70%,表现优异。SVM算法在处理高维特征和非线性问题方面具有优势,但在处理多分类问题对涵洞震害影响方面存在挑战。在实际应用中,需要考虑建筑材料和山体滑坡等因素调整参数设置。
在国外,使用决策树(DT)算法对约10万个公路涵洞的使用状态进行预测,结果显示模型准确率达80%,而且通过使用该方法,涵洞维护的成本可降低约44%,DT算法简单直观、无需预处理、稳健性高,但不足是对样本变动敏感,对于涵洞可能遭受不同的自然和/或人为极端事件(如百年一遇的洪水、超载卡车驶过、未经授权向附近沟渠倾倒废物等)未纳入考虑范围。根据Adaboost算法对得克萨斯州10000座桥梁的预测研究显示,ROC曲线面积在0.8以上,但此算法易出现过拟合情况。同时,相关研究分析对比了随机森林(RF)、决策树(DT)、支持向量机(SVM)、K近邻算法(KNN)和人工神经网络(ANN)等算法在涵洞状态预测中的表现,对2555个涵洞的分析结果显示RF准确率最高,为82%。
目前,健康监测系统在桥梁、隧道和铁路等大型基础设施中的应用已日趋成熟。这些系统主要依赖于传感器网络和数据采集技术,实现对涵洞结构和状态的实时监测。通过长期监测和数据分析,我们能够准确识别影响涵洞性能的关键因素,并提供针对性地预测和维修建议。然而,相较于其他领域,涵洞相关的研究数量仍显不足。
(二)输入变量选择
涵洞的分类多样,依据不同的标准可以进行多种划分。按照建筑材料,涵洞可分为砖涵、石涵、混凝土涵以及钢筋混凝土涵;从构造形式上看,涵洞则分为圆管涵、拱涵、盖板涵和箱涵。此外,根据填土情况的不同,涵洞还可以分为明涵和暗涵。明涵特指洞顶无填土的涵洞,适用于低路堤及浅沟渠处;而暗涵则是指洞顶有填土的涵洞,其最小填土厚度应超过50cm,适用于高路堤及深沟渠处。
在国内,对涵洞损伤和状态的研究主要集中在涵洞裂缝、盖板状态、洞身变形以及洞体淤堵等方面。这些研究所考虑的影响因子则包括场地类别、涵洞型式、洞口构造以及涵洞跨径等。这些研究旨在更深入地了解涵洞的性能和状态,以便更好地进行维护和管理。在国外,涵洞的研究重点与国内相似,主要集中在涵洞变形裂缝、淤堵和剩余寿命等方面。研究所涉及的影响因子主要包括涵洞的物理特性(如尺寸、材料和形状)、部分环境因素(以pH值为主)以及车流量等。例如,Gao、Fang和Iqbal等人对美国俄亥俄州约10万条涵洞数据和得克萨斯州约1万条桥梁数据进行了深入研究。然而,他们的结论显示,目前数据库所采集的数据和因子在实际建模过程中能发挥作用的仅占不到10%,主要涵盖涵洞材料、尺寸、形状和车流量等因素。
因此,本研究中机器学习模型的输入变量涵盖了涵洞材料、尺寸、形状、使用年限、涵洞磨损情况以及pH值等多个方面。这些变量将作为模型训练和0yiUZ6putNMsKxF1dnzcdPJHbwLQH0y+imRpMMb+Dpw=分析的重要依据,以实现对涵洞性能的精准预测和评估。
(三)模型评价指标
在此机器学习涵洞状态预测模型(ML)的开发初期,我们选用了三种不同的机器学习算法,分别是人工神经网络(ANN)、支持向量机(SVM)以及决策树。这些模型的开发依赖于ODOTTIMS涵洞清单数据库提供的数据,该数据库由ODOT于2018年发布。为了确保数据适用于机器学习模型的构建,我们对下载的原始数据进行了预处理,具体采用了列表删除(LD)和反距离加权(IDW)等技术,使得数据能够满足ML模型开发的要求。ODOT最初使用的10分评级表被重新调整划分为两组,以清晰地标识涵洞是否需要接受检查。其中,第一组涵洞得分在0至6分之间,表明这些涵洞需要接受检查;而第二组涵洞得分在7至9分之间,表明这些涵洞状况良好,无需进一步检查。利用准确率(Accuracy)、召回率(Recall)、精确度(Precision)、F-分数(F1Score)和ROC曲线(ROCCurve)等评价指标对模型进行了初步评估,结果显示,决策树模型相较于其他两种算法,展现出了更为优越的性能。因此,决策树(DT)算法被用于进一步的模型开发。
准确率(Accuracy)是衡量分类器性能的关键指标之一。具体而言,准确率代表了分类器在给定测试数据集中正确分类的样本数与总样本数之间的比率,它实质上是预测正确的概率体现。然而,初步研究还发现,涵洞评级数据的不平衡性对机器学习模型的准确率造成了显著影响,数值从76%到85%不等。故准确率这一指标往往无法全面、准确地反映模型的预测能力。召回率(Recall)又称真阳性率(TPR)或灵敏度(Sensitivity),召回率表示实际为正的样本被判断为正样本的比例。召回率低意味着分类器会产生很多假负例(FalseNegative)预测,在本研究中,召回率为0.81,表现出色。精确度(Precision)的数值会受到假正例(FP)案例数量的影响,以涵洞状况预测为例,和召回率类似,如果模型预测出大量涵洞状况不佳,而实际上并非如此,这就导致了较低的精确度,因为模型预测了过多的涵洞状况不佳,其代价是额外的实地考察和现场检查。所以在模型选择时,应优先考虑具有较高精确度的模型,如本模型精确度达0.73。F分数(F1score)的高低直接反映了分类器在减少假正例(FP)和假负例(FN)方面的能力。当F分数较高时,意味着模型能够更准确地识别出实际的正例情况,同时减少了因误报(即FP)带来的干扰。因此,一个高F分数的模型在识别正例和避免误报方面表现优秀。F分数最佳为1,表示分类器完美识别,性能最佳;最差为0,则表明分类器无法识别,性能极差,本研究F分数接近0.8,性能较好。接收者工作特征曲线(ROCCurve)是描绘分类概率阈值从0到1变化时,召回率与误报率(FPR)之间关系的图形。为了将涵洞状态预测模型性能与现有研究进行比较,使用了ROC曲线下的曲线面积(AUC)来进一步评估所开发的决策树模型。AUC的取值范围在0.5至1.0之间,其中0.5表示最差性能,1.0最佳。在此ML模型中,ROC曲线的性能表现较好。
总体研究结果显示,采用建议的选择性检查方法,一年内混凝土涵洞的检查量可减少约50%。
二、机器学习算法在涵洞状态预测的应用问题
(一)数据选择没有标准化
虽然本研究中涵洞状态预测分析模型表现较好,但仍存在亟待解决的问题,如当前涵洞数据采集工作缺乏统一的标准,不同地区往往根据自身需求或设备条件进行采集。单纯从数据分析的角度来看,数据库中接近90%的信息是非关键的,这导致了存储空间的浪费。考虑到涵洞数量众多,这种情况不仅使得数据存储效率低下,还会在分析过程中增加前期数据清洗的工作量和运算成本,降低了数据处理和分析的效率与准确性。因此,制定统一的涵洞数据采集标准,优化数据存储和分析流程,对于提高涵洞管理的效率和准确性具有重要意义。
(二)数据量较少
在构建现有的机器学习算法涵洞预测或分析模型时,研究者们通常基于研究方向和已有数据来选取输入变量,随后由模型自行判定特征变量,鲜有研究对输入变量的选择过程进行深入分析,从而导致在确定涵洞状态的关键影响因子方面仍有所不足。相较于桥梁、隧道等大型基础设施,涵洞的研究相对匮乏,多数研究受限于较小的数据样本量,这主要是由于未能充分整合不同维度的数据及复杂的数据采集、传感、传输和存储硬件要求。然而,现有技术已完全具备数据整合和扩容的能力。因此,加强数据整合工作有望深化和拓宽涵洞研究,为涵洞的安全高效运行提供更强有力的支持。
(三)实践应用受限
尽管机器视觉和健康监测系统目前已经得到了较好的发展,但是由于涵洞数量众多且大多深埋于地下,其复杂的传感、传输、存储和分析过程在涵洞上的应用前景仍然面临着较大的阻力,这些系统在涵洞实践应用中的使用受到了一定的限制。为了克服这些挑战,我们需要进一步研究并优化这些系统,以适应涵洞的特殊环境和需求,从而推动其在涵洞监测和维护中的广泛应用。
三、结语
综上所述,机器学习算法在涵洞状态预测领域已取得研究成效,能基于多因素涵洞数据构建预测模型,精准评估涵洞状态。同时,机器学习算法能自动学习数据特征,挖掘潜在影响,为涵洞管理维护提供支持。然而,仍存在数据获取整合难、数据质量不一等问题,影响预测准确性。此外,涵洞状态预测涉及复杂因素,算法和参数选择需谨慎,需大量实验验证。
针对我国机器学习在涵洞状态预测的应用提出建议:第一,应加强涵洞数据采集整理,统一数据标准,确保准确性完整性,利用数据清洗预处理技术提升数据质量。第二,研究不同机器学习算法在涵洞状态预测中的应用,通过对比实验选择最佳算法和参数。第三,结合其他领域知识,引入新特征和方法,提高预测准确性。
(作者单位:广州城建职业学院;基金项目:2023广东省普通高校重点领域专项[新一代信息技术],编号:2023ZDZX1095。)