APP下载

多传感器钢筋锈蚀无损检测数据的机器学习

2019-11-20VOELKERChristoph郭建强

无损检测 2019年11期
关键词:决策树分类器逻辑

VOELKERChristoph郭建强

(1.西南交通大学 无损检测研究中心,成都 610031;2.德国联邦材料研究院(BAM),柏林 12205)

钢筋混凝土的锈蚀是土木工程结构损伤的主要原因之一,常发生在需要除冰的公路及海洋环境的建筑中。这种损伤会对混凝土结构的完整性造成影响,并使其受力发生变化,导致建筑物存在很高的风险[1]。目前,有多种无损检测(NDT)的方法可以检测锈蚀程度,如探地雷达(GPR)可以根据接收到的电磁波的波形、振幅强度等特征,推断地下介质的空间位置、结构、形态等;半电池电位法(HP)利用参考电极测量钢筋电位,测量值变化越急剧,锈蚀程度越严重[2]。然而,各种单一的检测方法和传感器通常不能获取足够的锈蚀特征信息,以至于很难判断钢筋的锈蚀状况。为此,笔者基于多种检测方法获得钢筋锈蚀的特征信息,通过其相关性,采用机器学习的方法来研究钢筋锈蚀的损坏程度。

笔者采用探地雷达(GPR)测量钢筋反射的脉冲能量,并使用半电池电位法(HP)测量试件的锈蚀电位[2],通过温纳法(WR)[3]和微波湿度法(MW)[4]分别测量锈蚀钢筋的电阻率和锈蚀湿度。数据采集于钢筋混凝土锈蚀试验,在各种环境因素都受控的条件下模拟加速混凝土构件的生命周期过程。对比了基本的逻辑回归、更高级的决策树和Boosting 3种机器学习算法在数据融合及决策过程中的性能差异。

1 钢筋锈蚀及检测数据

训练数据需要体现场景中所有的情况,并包含一个明确的标准值对样本进行分类。为此,在场景湿度和盐度都可控的大型钢筋混凝土试件上进行数据的采集,混凝土浇筑前样品腐蚀棒外观如图1所示(红框为锈蚀棒;绿框为氯离子迁移传感器;蓝框为参考电极)。

图1 混凝土浇筑前样品腐蚀棒外观

试验涵盖了混凝土构件生命周期中的3个阶段:未损坏阶段(混凝土刚浇铸好后的试件)、使用阶段(试件含氯化物但未锈蚀)和缺陷阶段(试件含有氯化物且被锈蚀)。试验样本被分为两组,用来分析混凝土密度对锈蚀的影响。其中,一组在混凝土密度较低的试件顶部测量,另一组在密度较高的试件底部测量。

氯离子渗透到混凝土一定深度需要数年的时间[5]。为了加速这一过程,采用人工电离极化锈蚀的方法。阳极电位超过临界锈蚀条件会引发钢筋的锈蚀,并持续监测盐锈蚀的位置以防止随机锈蚀的发生,氯化物的注入及检测装置结构示意如图2所示,图中:①为钢筋;②为腐蚀棒;③为参比电极MnO2;④为脱钝传感器;⑤为氯化钠溶液;⑥为对电极(MMO);⑦为混凝土。通过对电极与工作电极组成极化回路,采用分流电阻器,使电流在锈蚀钢筋与钢筋笼之间流动,从而获得钢筋锈蚀样本。

图2 氯化物的注入及检测装置结构示意

探地雷达(GPR)检测使用美国GSSI公司的SIR20装置, 该装置具有频率为2 GHz的天线,两个垂直偏振,采用横向测量间距为5 mm,线间距为2 cm的自动扫描系统收集数据。采用半电池电位法(HP)、温纳法(WR)和微波湿度法(MW)沿着测量网格手动收集信号,间隔为10 cm。使用Proceq公司的Canin+锈蚀分析系统收集分析HP法测量电位数据,其参考电极是硫酸铜棒;使用Proceq公司的Resipod探针收集得到WR法的测量值;使用HF-Sensors的ID10探针测量得到微波湿度的测量值。由此收集得到多传感器的监测数据集。

2 数据特征提取

数据集是在18个不同的日期分别采集得到的。采集过程中,在具有不同湿度、盐含量、混凝土质量和腐蚀活性的试样上使用上述4种不同的NDT方法,提取了7个样本特征。特征即传感器信号参数,其会受到相应缺陷的显著影响。表1列出了所有NDT方法得到的相应特征参数。

表1 从NDT信号中提取的特征参数

特征1和特征2提取于GPR的表面波。混凝土介电常数随着混凝土含水量的增加而增大,表面波的传播速度和主频率都会随之降低。混凝土的电导率也随着溶解的氯离子的增多而增大,从而使表面波的振幅降低,所以通过表面波能量和表面波主频率可以监测介电常数和电导率。特征3,4,5,6来自直接的参数测量方法,其测量信号是标量,因此不需要进行进一步的特征提取。特征7是通过测量钢筋反射振幅的衰减得到的,不同腐蚀程度的测量点得到的振幅衰减程度不同。特征1,2,5,6用于描述环境条件,特征3,4,7用于表征腐蚀情况。为了确保特征的可比性,对所有特征进行归一化,表2列出了计算特征的归一化因子F及其减数S,其中f为原始参数。

3 算法设计

将机器学习的方法和相关理论应用于数据融合技术,可大幅度提升算法的性能[6]。基于决策树及Boosting方法,分别设计了数据融合方法以提高算法性能;并将其结果与基础的逻辑回归算法进行对比和分析,探讨各方法在上述多元数据集中的适用性。

3.1 多传感器数据融合

多传感器数据融合是利用机器学习的算法,将多源信息在一定准则下进行分析、优化和整合,以达到提升信息质量的目的[6],从而更好地进行决策。在无损检测领域里,信息质量通常指鲁棒性、可靠性和准确性等[7]。基于数据的多传感器融合在特征级上进行,多传感器特征级融合的一般过程如图3所示,其描述了4种传感器获取信息并融合的过程。从原始数据中提取特征是将原始数据映射到一个更高维的空间,即特征空间。完好区域和缺陷区域之间的分类在特征空间中进行。

图3 多传感器特征级融合的一般过程

机器学习算法是通过已有的特征与标签之间的对应关系,实现完好像素和缺陷像素决策边界的学习。

二维特征空间示意如图4所示,红色和蓝色的区域分别代表缺陷和完好在特征空间中的频数分布情况,坐标轴上红色和蓝色的线分别代表两个类在该坐标轴的概率分布情况。可见特征c、d的相关性高于特征a、b的。两个类的概率分布的重叠面积决定着数据的信息质量,重叠面积越小,分类函数就越容易得到,信息质量也越高。由概率分布来看,特征a、b组成的特征空间的信息质量高于特征c、d组成的特征空间的。通过数据融合在特征空间内增加一个子空间(图4中红色直线)可以提升信息质量,并且相关性越高的特征,信息质量提升越大。同理,在更高维的特征空间,信息质量可以得到更大幅度的提升。所以,数据融合方法能提升分类效果。

图4 二维特征空间示意

表2 特征的归一化因子及其减数

3.2 逻辑回归算法

逻辑回归算法是1967年提出来的一种二元分类器[8],其决策边界由简单的线性回归函数描述。当执行判别函数时逻辑回归不易出现异常值,所以逻辑回归常被用在真实测量值的自动分类任务中。

标准的逻辑函数也就是Sigmoid函数,可以将输入值t(t∈R)映射到0~1之间。逻辑函数σ(t)被定义为

(1)

t=β0+β1x

(2)

式中:t为变量x的线性函数;β0和β1为回归参数,在训练过程中,通过优化β提升模型的分类性能。

故式(1)可进一步表示为

(3)

式中:p(x)为因变量x的概率值,被映射在[0,1]以内。

在二分类情况下,1/2作为概率值的分界,将输入变量有效地分为两类。 因此逻辑回归算法避免了无限误差,从而减小了异常值的影响。

3.3 决策树算法

决策树算法[9]是基于分层树结构,将特征值与阈值进行比较,从根节点开始,对数据的某一特征进行测试,根据测试结果,将实例分配到其子结点,使每一个子结点对应着该特征的一个取值。如此递归,完成对实例的测试和分配,直至达到叶结点,完成特征的分类。决策树的基本特点是可以根据特征的重要程度,安排其在决策树中的位置,从而更好地完成分类。设p和n分别表示二分类变量的缺陷样本和完好样本和,那么特征A所得到的信息增益G(A)为

(4)

式中:I(p,n)为信息熵。

(5)

试验中,分类数目v为2。信息增益越大,代表通过该特征的重要程度越高,也就是该特征所能获得的信息分类效果越好。

再利用最大化信息增益的方式对变量进行二分类处理,由此来降低统计偏差。所以,要求式(4)中的第二项所表示的信息熵损失最小,如式(6)所示。

(6)

对于一个连续变化的特征A,通过最大化信息增益不断调节特征值的分割点,从而达到最佳的分类效果。

3.4 Boosting方法

集成学习是将几个不同模型的输出结合起来,实现更准确的分类,其中Boosting与已建立的加性模型的统计技术密切相关,更适用于研究中的多传感器数据[10]。

Boosting是一种机器学习集成方法,主要用于减少算法的方差和偏差,并将弱学习算法转化为强学习算法,从而提升算法性能。Boosting通过结合多个分类器,根据所有分类器的输出结果投票得出最终的结果。在计算过程中,每个新模型都受到以前构建模型性能的影响,并根据模型的置信度来决定权重。为了进行比较,采用的基本弱学习算法为逻辑回归,并使用能对弱学习算法的错误进行适应性调整的AdaBoost模型。

AdaBoost的输入是一组由m个样本{(x1,y1),…,(xm,ym)}构成的训练集及一个弱学习算法(WeakLearn)。训练集对应的标签值为yi∈Y={1,…,k}(i=1,…,m),整数T为迭代次数。初始权值D1(i)=1/m,迭代运算次数t=1,2,…,T,步骤如下所述。

(1) 调用 WeakLearn算法, 并代入权值分布Dt。

(2) 返回假设值ht:X→Y。

(3) 计算分类误差ht:εt=∑i:ht(xi)≠yiDt(i)。如果εt>1/2, 令T=t-1,终止循环。

(5) 更新训练数据权值分布Dt。

(7)

式中:Zt为一个归一化常数;ht的权重为ln(1/βt),所以ht的权值越大,误差越小。

这个过程迭代T次,最后结合WeakLearn的预测值h1,…,hT,得到最终结果hfin(x)[11]为

(8)

由此实现Boosting,像Boosting这样的集成学习法,可以结合成百上千个弱算法为一个分类效果良好的强算法,但却很难直观地表示各个特征的利用程度。

4 试验结果

4.1 建立算法模型

分类方法的性能通常用真正率(TPR)、假正率(FPR)和误差来衡量。研究中分别表示为

(9)

(10)

误差=(1-TPR)×实际为“缺陷”的样本数+

FPR×实际为“完好”的样本数

(11)

数据集被分为训练集和测试集。训练集用来训练分类器,测试集用于测试分类器性能,模型的性能可以用偏差方差权衡的方法来衡量。训练误差,即偏差,是分类方法的综合评估标准。测试误差,也就是方差,用于评估分类方法的普适性。通常偏差随着模型复杂性的增加而减小,而方差会随之增加。优选的模型应该是方差和偏差之和最小的模型。

训练集或测试集中如果存在异常值,性能就很容易被错误地评估。采用交叉验证法来提高评估结果的可靠性,这种方法使用不同的训练数据和测试数据组合,并以平均值作为最终结果。研究使用的K-fold交叉验证法,从18个独立测量日期构成的集合中去掉前两个相对不可靠的集合,将剩余的16个集合两两分为一组,组成8个独立子集(fold),并依次用其中一个子集作为测试集,剩下7个子集用作训练集。

使用软件MATLAB中的fitglm函数进行逻辑回归训练,使用fitctree函数进行决策树训练,使用Adaboost函数进行Boosting训练。对于决策树来说,最优分裂数和最优分裂指标均由偏置方差分解来确定。分裂数目在1~60 之间进行选择,通过试验证明最优分裂数为5。在熵、Gini指数、Deviance等测量指标中选用了Deviance为最优分裂指标。对于Boosting来说最优分裂数目为6,最优学习器数(number of learner)是20。逻辑回归的最佳结果由200个缺陷样本和50 000个完好样本点组成不均衡的数据集训练得到。决策树和Boosting方法在2 000个缺陷样本和50 000个完好样本组成的较均衡的数据集中进行试验,得到了最佳的训练结果。测试是使用不均衡数据进行的,以确保可比性。

4.2 算法性能对比

表3总结了线性逻辑回归算法、最优决策树算法及Boosting方法的结果。

表3 不同分类方法的结果比较

通过比较误差,也就是最少错误分类样本数目,可知最好的结果由经过K折交叉验证的Boosting算法得到,其次是逻辑回归算法。由TPR和FPR的显示可知,Boosting的灵敏度明显高于其他两个算法的,虽然决策树算法的灵敏度高于逻辑回归算法的,但误报率也高。综上可见,Boosting方法得到了最优性能的分类器。

4.3 特征利用程度分析

分类器的另一个特征是其对可用特征集的利用程度。尽管特征的参考值不一样,但对研究的数据来说,可通过充分地利用特征空间的全维性来进一步提升算法性能。逻辑回归算法、决策树算法中每个特征对分类器的贡献是可区分的。逻辑回归和常规的回归分析一样,回归系数β可作为描述每个特征重要程度的权值。特征的β值越接近于0,对分类的贡献就越小。决策树算法中预测重要度(PI)是估计分类器性能的重要参数。PI值根据一个特征的可变性和某个节点上类别的联合概率或到达某个节点的概率,来量化树形结构上因分裂引起的风险的变化。如果PI值为0,则该特征在决策过程中几乎不起作用;PI值越高,该特征对决策的影响也就越大。

为了评估逻辑回归和决策树受不同特征的影响情况,表4列出了逻辑回归平均回归系数和决策树的PI值。可见逻辑回归算法利用了所有的特征,因为所有的都非零。PI值在特征2和特征6上是0,在特征7上接近于0,表明其对决策树性能提升影响小。两种方法显示最重要的特征都是通过半电池电位映射(HP)检测方法得到的,即特征3和特征4。

表4 以回归系数β、PI值表示的特征的重要性

5 结论

基于钢筋混凝土锈蚀数据及逻辑回归算法设计了决策树和Boosting模型,并将其结果与基本的逻辑回归进行比较。分析表明,对于小型的异构数据集来说,利用逻辑回归训练出的简单稳健的模型相比于决策树训练出的具有复杂决策边界的模型具有更好的适用性。Boosting可以使预测结果具有更高的灵敏度和更小的误报率,同时改善对钢筋混凝土的锈蚀分析。这项工作显示了机器学习算法在多传感器无损检测数据融合应用中的潜力,由于对数据融合的可验证性和普适性的要求较高,其开发需要大量的试验验证。如果将理论转化为产品,机器学习算法将有助于推动NDT系统的自动化。

致谢感谢德国联邦材料研究所(BAM)提供的钢筋混凝土无损检测试验平台及自然科学基金项目的资助。

猜你喜欢

决策树分类器逻辑
刑事印证证明准确达成的逻辑反思
学贯中西(6):阐述ML分类器的工作流程
逻辑
创新的逻辑
基于朴素Bayes组合的简易集成分类器①
信息时代基于决策树对大学生情绪的分类
简述一种基于C4.5的随机决策树集成分类算法设计
一种自适应子融合集成多分类器方法
女人买买买的神逻辑
决策树学习的剪枝方法