人工智能图像识别在水利行业的应用进展
2022-11-28梁思涵李英睿
李 涛,徐 高,梁思涵,李英睿,王 敏,李 冰
(1.黄河水利委员会 黄河水利科学研究院,河南 郑州 450003;2.芜湖水务局,安徽 芜湖 241000)
1 引 言
随着科技的快速发展,人工智能技术已受到人们的广泛关注,人工智能技术、空间技术以及原子能技术被誉为20世纪三大科学技术成就。人工智能是指用人工方法使机器(计算机)实现智能化处理问题、决策等,涉及计算机科学、控制论和信息论等多个领域。图像识别是人工智能的关键技术之一,已被广泛应用于各个行业,水利数字化、智能化的发展离不开人工智能图像识别技术的应用。图像识别是指利用计算机对图像进行处理、分析和理解,以识别不同模式的目标和对象。在水利行业中图像识别可应用于河道流速测量、遥感水体识别、水位监测和三维预测等,实现水利工程安全运行和监测以及应对突发水事件的自动化精准识别,协助防汛减灾、水资源管理与调度、水资源保护以及流域规划等。本文对传统的图像识别技术和引入神经网络算法的图像识别技术进行介绍,并对各技术的优缺点进行比较,总结人工智能图像识别技术在水利行业的应用并提出未来发展方向。
2 图像识别技术
图像识别研究始于20世纪40年代,当时技术有限、硬件设施不完善,图像识别研究并未取得有效进展[1]。图像识别的发展过程整体分为文字识别阶段、数字图像处理与识别阶段、物体三维识别阶段。文字识别研究始于20世纪50年代,主要识别文本类型数据(字母、数字和符号),识别范围从印刷文字拓展至手写文字。数字图像处理与识别研究始于1965年,与传统模拟图像相比,数字模拟图像中数据存储和传输更加便捷安全,不易失真。近年来随着人工智能的兴起和发展,相关学者开始着重研究物体三维识别,即以数字图像处理与识别为基础,结合机器学习和深度学习算法对图像进行识别。
图像识别过程主要包括信息获取、信息预处理、特征抽取和选择、分类器设计和分类决策4个步骤。信息获取主要通过传感器把声音、光等信息转换为电信号,即获取识别对象的基本信息后将其转换为计算机可识别的信息。信息预处理主要采用去噪、变换、平滑等方式对图像进行处理。特征抽取和选择需要对图像多种类的特征进行识别,通过一定方式分离特征并提取有价值的特征。分类器设计和分类决策主要通过制定识别规则使训练识别后的同组图像具有共同特征,并不断调整识别规则来提高图像识别率。
2.1 传统图像识别技术
2.1.1 统计法
基于统计法的图像识别以数学决策理论为基础,先将图像数字化表示,再建立统计识别模型,根据模型对图像进行统计分析,得到图像的不同特征,最后通过选取精准特征对图像进行分类。常用的图像统计识别模型有贝叶斯模型和马尔科夫随机场模型,其中贝叶斯模型可用于桥梁数据监测[2]和雨雾天气的自动识别[3],该模型能处理小规模数据的多个分类任务,对缺失数据不敏感,算法比较简单,但需要知道先验概率,先验概率多受限于假设和概率密度。统计法不能识别图像空间结构关系,当图像复杂、类别多时对图像特征提取困难,难以实现图像分类,因此该方法无法适用于主要表现特征为指纹、染色体等的图像。
2.1.2 句法识别法
句法识别法采用语言学的句法层次结构,对句子或短语结构进行分析,以确定构成句子的各个词、短语间的相互关系及其在句子中的作用,并用层次结构表达这些关系。针对图像识别,句法识别法将复杂图像分解为单层或多层的简单子图像,突出其空间结构关系。该方法不仅能够对图像进行识别分类,还可用于物体结构和景物的识别,但是较大的图像噪声和干扰会影响句法识别过程中子图像的抽取,导致误判率提高,分类识别精度降低。
2.1.3 几何变换法
拍摄物体与相机不平行时会使得到的图像发生几何畸变,须通过几何变换(平移、旋转和缩放)校正畸变图像,以更好地进行图像识别。霍夫变换法是几何变换法中的典型方法,该方法能够快速匹配图像形状,通过提取直线、圆等边界将图像中给定形状曲线上的所有点变换到霍夫空间并形成峰点,可用于有缺损形状的检测。霍夫变换法具有较强的抗干扰能力,对图像中残缺直线、噪声以及其他共存的非直线结构不敏感,但其算法的时间复杂度和空间复杂度较高,只能确定直线方向,容易丢失线段的长度信息。
2.2 引入神经网络算法的图像识别技术
传统图像识别技术以浅层次结构模型为主,需要对图像进行预处理,使图像的大小和灰度保持统一,但会导致图像识别的准确率降低[4]。基于此,多数学者开始研究更深层次的网络结构模型,使模型具有自主提取图像特征的能力,减少人为干预,神经网络算法应运而生。神经网络算法是一种模拟动物神经网络行为特征、分布式并行处理信息的算法数学模型,包括深度置信网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)和图卷积神经网络(GCN)等。
2.2.1 深度置信网络
深度置信网络由多个受限玻尔兹曼机(RBM)和一层有监督的分类器堆叠构成,结合了有监督学习和无监督学习[5]。深度置信网络学习过程分为两个阶段:第一阶段是逐层训练,把前一层RBM的输出作为下一层RBM的输入;第二阶段是通过BP神经网络算法或支持向量机微调参数使全局最优,即输出的识别结果在所有结果中准确度最高[1]。深度置信网络结构见图1(Xi为输入子块,Yi为输出结果)。
图1 深度置信网络结构
深度置信网络通过组合低层特征形成更抽象的高层特征,即使积累多层,通过微调参数仍能得到全局最优解,有效解决梯度消失问题,但其没有考虑图像的二维结构信息与变量的时间联系,卷积深度置信网络和堆叠时间限制玻尔兹曼机可以解决这些问题。
2.2.2 卷积神经网络
卷积神经网络是一种包含卷积计算且有深度结构的前馈神经网络,可以进行有监督学习和无监督学习,包括输入层、隐含层和输出层,其中隐含层包括卷积层、池采样层和全连接层。卷积层是对输入数据进行特征提取,池采样层主要进行特征选择和信息过滤,全连接层是对提取特征进行非线性组合后输出。卷积神经网络结构见图2,其处理图像时无需手动选取特征,当学习数据充足时表现稳定[6],通过构建阶层分类器对大规模图像进行分类,可提取图像特征供其他分类器学习[7]。卷积神经网络通常需要大量样本并将数据归一化。
图2 卷积神经网络结构
2.2.3 循环神经网络
循环神经网络(又称时间递归神经网络)能够挖掘数据中的时序信息,前序时间节点的信息将影响后续时间节点信息的输出[8]。循环神经网络结构见图3(Xt为第t时间步的输入;ht为第t时间步的状态;ht-1为第t-1时间步的状态),隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。对于每一时刻的输入,循环神经网络能够结合当前模型状态给出输出结果。循环神经网络具有记忆性,参数共享并且图灵完备,对序列的非线性特征进行学习时有一定优势,但当预测位置和相关信息的间隔较大时,循环神经网络可能会丧失学习远距离信息的能力,长短期记忆人工神经网络(LSTM)能够很好地解决长距离依赖问题。
图3 循环神经网络结构
2.2.4 图卷积神经网络
利用神经网络处理图像时不规则的图数据使卷积计算不能直接应用于图像处理。图卷积神经网络将卷积运算从传统数据(图像或网格)推广到图数据,分为基于谱域的方法和基于空域的方法[9]。基于谱域的方法从图信号处理角度引入滤波器来定义图卷积,图卷积运算被解释为从图信号中去除噪声。基于空域的方法是将图卷积表示为聚合来自邻居的特征信息。图卷积神经网络能同时对节点特征信息和结构信息进行端对端学习,适用于任意拓扑结构的节点,能很好地处理节点分类和边预测等任务,但图卷积模型依赖于全连接网络,训练层数受限且存在过拟合问题。
传统图像识别技术和引入神经网络算法的图像识别技术的优缺点对比见表1。
表1 图像识别技术的优缺点对比
3 人工智能图像识别在水利行业的应用
3.1 河道流速测量
河道流速测量方法主要分为接触式测量和非接触式测量[10]。接触式测量方法易操作、精度高,但智能化程度低、易受泥沙等杂质影响,在地势复杂、水流湍急场景下测速存在一定困难。非接触式测量方法一般通过波谱与粒子成像,采用稠密光流法进行流速识别[11],通过数据转换推算表面流速,监测数据少、数据传输快速便捷、智能化程度高,但该方法需要对机器进行维护,成本较高。通过人工智能图像识别进行河道流速测量无需人工干预和涉水作业,施测安全、识别精度高、运维成本低。不少学者对人工智能图像识别在河道测速方面的应用进行了深入研究。王万良等[12]利用特征约束组稀疏分类器对河流表面图像进行识别,依据训练集建立流速关系映射表来实现河流测速,为基于人工智能图像识别方法的测速建模提供了思路。Tauro等[13]通过非线性学习揭示水流形态结构,采用降维、特征提取等方法描述水流形态特征,有利于卷积神经网络在水流图像预处理和识别中的应用。河道表面水流识别实际上是纹理识别,利用CaffeNet建立的纹理卷积神经网络方法能够提高纹理识别精度[14]。冀中等[15]建立了由5个卷积层、3个最大池采样层和3个全连接层组成的卷积神经网络模型,通过主分量分析进行特征降维,利用支持向量机实现纹理识别。杨圭[16]利用卷积神经网络构建了河道表面流速图像识别模型,与激光多普勒测流、粒子图像测流等方法不同的是,该模型可视为黑箱模型,无需利用激光或微粒等媒介,没有明显的计算模式,通过对大量的水流图片进行学习,判断水流图片相应的流速标签,以此实现水流图片与流速信息的转换。
在河道测速方面,利用引入神经网络算法的图像识别方法已应用于长江委崇阳水文站试验场、长江委沌口科研基地、陶岔渠首、淠史杭灌区横排头水文站试验点、武汉大学排水灌溉试验场等。目前人工智能图像识别在河道流速测量方面的研究和应用处于初步发展阶段,采用卷积神经网络方法进行河流测速较为普遍。河道表面水流波纹会随流速加快而密度增大,卷积神经网络的隐含层能够精准识别图像的线条、角度和边缘等简单的几何特征。如何从图像预处理、特征提取和全连接层设置等方面进一步提高识别精度将是未来的研究方向。
3.2 遥感水体识别
遥感技术是一种远距离且非接触的探测技术,能够获取水文基础数据。随着科技发展,遥感技术逐渐应用于水体识别和信息提取,技术方法包括单波段阈值法[17]、监督分类法[18]和水体指数法[19]等,但这些方法的精度受影像质量和人为因素的影响较大,需要多次进行实验以设定阈值,不能对遥感图像精确分类。神经网络算法能够很好地解决上述问题,提高图像识别的准确性,因此许多学者对神经网络算法在遥感水体识别方面的应用进行了深入研究。孙涛等[20]总结了深度学习在遥感水体识别中的应用,认为遥感图像是遥感技术的关键,利用神经网络算法提取图像特征能更好地进行水体识别。杜敬[21]利用深度卷积神经网络模型对无人机遥感影像进行水体识别,识别准确率达95.36%。此外,学者们研究了不同的编码器以提高水体提取精度。Yang等[22]基于堆叠自动编码器构建了水体提取模型,考虑相邻像素的影响设计了特征扩展算法(FEA),通过提取新疆、江苏、四川地区的水体,发现基于堆叠自动编码器的水体提取模型的精度优于传统的神经网络模型。杨柳[23]利用栈式自编码器进行遥感影像水体识别,发现相较于支持向量机模型和人工神经网络模型,基于栈式自编码器的模型的准确率更高,达到了94.35%。
在实例运用中只有对水体进行精准识别,才能确保水体监测的准确性,辅助相关管理部门进行精准化决策。遥感水体识别已在白洋淀水体监测、三岔湖藻华聚集监测和雅韶镇水体富营养化监测中起到了关键作用,有利于水质管理和生态平衡的维护。目前,人工智能图像识别在遥感水体识别的研究和应用正处于发展阶段,研究多集中于水体特征的提取,与支持向量机法和面向对象法相比,神经网络算法的精准性更高。当前阶段神经网络算法多采用监督训练,需要大量的标签数据作为支撑,但是遥感图像为多波段数据,制作标签数据要通过预处理和标准化过程,工作量高于普通图像处理,未来无监督训练方法将是神经网络算法在遥感水体识别领域的研究重点。
3.3 水位监测
水位是反映水体变化的重要指标,水位监测可为防汛抗旱、灌溉等提供水情信息,长期积累的水位监测资料是水利水电等工程规划建设的基本依据。水位监测方法主要分为直接观测方法和间接观测方法。直接观测方法通过架设水尺,利用水准仪等仪器人工目读,测量精准,但需要人为对数据进行获取、存储和分析等,自动化程度低,耗时耗力,工作人员作业安全性低。间接观测方法利用各类传感器自动采集电压、水压等模拟信号,通过转换器将信号转换为水位信息,测量方便、智能化程度较高[16],但雷达式水位计等间接观测设备参数设置复杂,电磁波易受到干扰。利用人工智能神经网络算法进行图像识别,既可在现有水利视频监控系统中嵌入算法,也可利用成熟的GPRS或4G无线视频图像传输系统在野外建立观测点,具有非接触、智能化、成本低的优势。许多学者将神经网络算法引入水位监测中,首先对采集的水尺图像进行类型变换、去噪滤波等预处理,其次利用Hough变换算法校正图像[24],截取目标区域并提取水尺刻度线,最后通过神经网络算法识别数字字符确定水尺总量程,根据水尺刻度线和总量程的关系得到水位值[25]。王磊等[26]提出了基于深度学习的图像识别算法,运用YOLO-v3和ResNet算法分别检测水尺图像并识别水尺刻度线,该算法已初步应用于国家水资源监控能力灌区监测点,测试识别准确率高达95.7%,该算法还有识别速度快、环境适应能力强等特点。程诚等[27]根据水尺刻度线的定位和数字字符,先对数字字符进行预处理,再利用卷积神经网络算法对分割出的数字字符进行识别,最终确定水位值,当水位超出设定阈值时能够发出预警信息,协助水利人员进行防汛预报。在利用神经网络算法对图像进行识别时,模型训练样本的丰富度低以及水尺有污渍时会影响识别准确率[28]。通过改进的超像素和图割算法能够解决水位测量中水尺有污渍和水尺倾斜导致的观读数据易出错问题[29]。
基于神经网络算法的水位监测已应用于许多河道、水库,例如通过海塔水库监测山洪水位解决了施测风险高和水位暴涨暴落等问题。桐乡市水利局建设智能水位感知系统,实时监测水位变化,确保水利设施的正常运行,为强降雨天气的水位分析和决策提供了数据支撑。神经网络算法在水体监测中的作用主要是识别数字字符,确定水尺总量程和水位。目前对于水位监测方法的改进多处于图像前期预处理阶段,提升字符不明显图像的识别精度以及建立动态的图像数据库将是未来的研究方向。
3.4 三维预测
现阶段水利行业正朝着数字化和精细化方向发展,对空间信息数据的需求逐步由二维过渡到三维。三维重建是指用计算机语言对三维物体建立数学模型,为水利行业的可视化管理提供数据支撑。随着神经网络算法的发展,神经网络算法与三维重建相结合进行三维预测成为研究热点。神经网络算法通过对大量已有数据进行学习,可以预测对象的全局结构,补全局部细节,获得高精度的三维模型。
对于神经网络算法,卷积神经网络一般用来识别位移、缩放等形式扭曲不变性的二维像素或三维体素[5]。体素是三维空间中一个有大小的点,相当于二维空间的像素,用体素表示三维物体会使计算量呈几何式增加,通常采用降低分辨率的方式提高其存储、计算效率,牺牲存储空间换取计算时间。基于八叉树的卷积神经网络算法也能够很好解决以上问题[30-31]。马常霞等[32]将基于区域的掩模卷积网络和图卷积神经网络相结合对水利枢纽进行了三维重建,基于区域的掩模卷积网络实现二维感知,图卷积神经网络实现三维形状推断,能够解决基于图像的三维重建传统方法中信息获取效率低和抗干扰能力差等问题。赵中原等[33]采用基于BP神经网络的图像识别方法对水利工程隧道的施工开挖、加固过程进行了三维地质力学模型试验,监测物体变形前后标记点的位移数据,监测的数据满足隧道三维地质力学模型中开挖隧道收敛变形监测的精度要求。
基于神经网络算法的三维预测已应用于多个地方的水利系统,例如渭南水务数字孪生系统能够对渭南地区进行三维预测和分析。在堰塞湖应急测绘工作中,实景三维预测能够为相关部门开展灾情研判、分析、排查以及灾后重建等提供保障。在长江航道河道整治工作中,三维预测能够辅助建筑物的维护管控。当前研究中基于神经网络算法的三维预测精度相较于其他方法已有所提高,当业务需求不断增加、业务场景复杂多变时保持较高的预测精度是关键,高预测精度能够辅助管理人员进行精准化决策。因此,在复杂场景下保持高预测精度将是未来三维预测的发展方向和研究重点。
4 总结与展望
本文介绍了统计法、句法识别法和几何变换法3种传统的图像识别技术以及深度置信网络、卷积神经网络、循环神经网络与图卷积神经网络4种引入神经网络算法的图像识别技术,比较了上述图像识别技术的优缺点。从河道流速测量、遥感水体识别、水位监测和三维预测方面综述了人工智能图像识别在水利行业的应用。人工智能图像识别的引入提升了水利行业图像识别的精度和准确率,具有较强的实时性,能够协助水利工程各环节的有序高效实施、水资源的科学调度、管理平台的精准化决策等,但目前人工智能图像识别在水利行业的应用属于起步阶段,部分神经网络算法只适配于特定场景且受计算机系统的影响,因此提高技术场景适配能力、兼容性和识别精度等将是人工智能图像识别在水利行业应用的发展方向。