基于边缘检测法的风自记纸图像数字化
2022-02-22李亚丽黄少平鞠晓慧
李亚丽,黄少平,鞠晓慧
(1.陕西省气象信息中心,陕西 西安 710014;2.陕西省气象局秦岭和黄土高原生态环境气象重点实验室,陕西 西安 710016;3.江西省气象信息中心,江西 南昌 330046;4.国家气象信息中心,北京 100081)
0 引 言
气象资料是大气科学学科发展的基础,无论对天气预报、科学研究、防灾减灾,还是对全球气候变化问题等国家方针政策的制定,都至关重要。自古以来,人们便对气象信息及规律进行观测和记载,形成了宝贵的气候资料,众多科学家应用这些庞大而系统的气候资料开展气候研究,气候资料的指导性激发了许多新发现和对机理的新认识。科技的进步推动着气象观测的变革,在地面气象观测自动化之前,全国2 400多个气象站自20世纪60年代使用降水、风、气温等各类自记仪器进行小时乃至分钟尺度的气象要素观测,共积累了40多年约2 000多万页的风自记纸。
图像处理和模式识别技术的发展,为降水、风等气象要素自记纸提供了有效的数字化处理手段,高时空分辨率的气候资料必将为探寻极端天气事件成因以及理解气候长期变化趋势原因提供有利条件。王伯民等人采用图像扫描和曲线跟踪技术,研发降水自记纸彩色扫描数字化处理系统,通过人机交互的方式提取全国降水自记纸曲线数据,建立了中国地面气象站长序列、高质量的分钟和小时降水文件数据集,数据成果应用于各地的暴雨强度公式的研制,城市内涝防治等方面。基于灰度积分投影的分段线性插值算法对风速曲线进行重构,基于方向滤波的风向风速自记纸数字化算法实现风向风速自记纸图像的坐标线以及风向风速曲线的提取和量化,为风自记纸图像的迹线识别与数据提取做出了有益的尝试和探索。
随着数字化技术的发展,通过计算图像的某个特征值(梯度或灰度),然后依据给定的特征值控制阈值对图像信息进行处理,实现图像目标边缘的精确定位成为数字图像处理技术的主要内容。Canny边缘检测法因其具有定位精度高、信噪比高以及单边缘响应等优点得到了广泛应用。但传统的Canny算子因高低阈值比例固定,且需要根据检测图像的具体情况手动设置,在实际应用中效率较低,难以实现自动实时的检测。由日本学者大津提出的最大类间方差法(后简称Otsu算法)是一种自适应的阈值确定方法,根据图像的灰度特性,将图像分成背景和目标两部分,通过遍历寻找某一阈值使得背景和目标之间的类间方差达到最大值,即最佳分割阈值。将Otsu算法的思想应用于Canny算子中,可实现Canny的高低阈值自适应选取,从而实现图像边缘的自适应提取,可以应用于需要快速自动提取图像边缘的场合。
该文介绍了应用基于Otsu算法改进的Canny边缘检测方法完成风自记纸图像的倾斜校正、坐标线及风速风向迹线的识别和提取的算法,并根据《地面气象观测规范》和国标《地面气象观测规范-风向和风速》中EL型电接风仪器观测原理和自记纸记录整理要求,以及气象行业标准《风自记纸记录数字化 EL型》中风自记纸记录提取的要求,设计研发的EL型电接风自记纸迹线数据提取软件系统的设计思路、处理流程和主要功能。该系统于2020年投入全国气象部门应用,目前已完成500多站EL型电接风自记纸迹线数据的提取。并通过比较地面气象月报表A/A6/A7文件中人工整理的小时和日最大风速风向(后文简称“原风”)与利用EL型电接风自记纸迹线数据提取软件系统提取的风向风速数据(后文简称“新风”),分析系统识别提取的风数据的质量和精度,以期为新风记录的使用、历史长序列分钟/小时风数据集的建立提供有价值的参考意见。
1 EL型电接风自记纸迹线数据提取软件系统
EL型电接风自记纸(后文简称“风自记纸”)是由横纵坐标线组成的网格图,时间跨度1 480 min,每10 min一条竖线(风向区)或弧线(风速区)。一张纸上有4条风向曲线,每一条风向曲线由一条风向横线作为判定风向的参照线,某一时刻风向的判别由此时刻风向竖线相对于风向横线的位置决定,分别用来判断南/北、东北/西南、东/西、东南/西北,风向记录以方位为单位,按文献[20]中表1的要求记录对应的风向符号。风速测量以m/s为单位,最小刻度范围为1.0 m/s。
根据EL型电接风向风速计测量原理,风速是按空气行程200 m,风速自记笔尖相应跳动1次来记录的。如10 min内跳动1次,风速为0.3 m/s(即200 m/600 s),跳动2次,风速为0.7 m/s(即400 m/600 s),跳动3次在自记纸上移动一格,表示10 min平均风速1.0 m/s(即600 m/600 s)。因此,风速保留1位小数,小数位只能取0、3、7。静风时,风速迹线划平线,风速记为0.0 m/s。每2.5 min记录一次瞬时风向。
1.1 系统设计基本思路
EL型电接风自记纸迹线数据提取软件系统设计的基本思路:利用基于Otsu算法的Canny边缘检测方法对风自记纸图像文件进行预处理、识别并自动跟踪风向风速网格和迹线,提取出网格和迹线的坐标点等参数,形成迹线坐标数据文件,依据《风自记纸记录数字化 EL型》中单位时间风速风向计算算法,将迹线坐标数据转换生成标准的风分钟/小时数据文件。
1.2 系统处理流程
首先,完成包括输入/出文件路径配置、提取数据线型和颜色配置、提取节点稀疏阈值设定、迹线范围等“系统设置”,通过“图像管理”完成台站信息管理;其次,在对文件名、文件可读性以及连续性等进行检查和图像倾斜变形校正、图像增强等预处理的同时,将扫描的风自记纸图像文件导入系统;接着(图1),通过批量自动处理或单张处理方式,添加或打开图像文件,设置图像网格和自记迹线开始(结束)时间;识别并自动提取风向风速网格和迹线,通过人机交互方式回放检查、修正完成风自记纸记录提取;最后,根据2.2章节中风速风向的计算算法,将提取到的迹线坐标数据转换生成分钟、小时数据;对数据进行完整性、逻辑性检查后转换生成标准格式的分钟/小时风数据文件。
图1 系统风自记纸数字化处理流程
1.3 系统主要功能
系统包括系统管理、图像管理、曲线提取和数据转换4个模块,实现的功能主要包括台站信息、图像文件和A文件等导入和系统参数配置,图像文件预处理,单张或批量处理的风向风速网格和迹线的识别提取,迹线识别效果的回放检查,风分钟/小时数据文件转换生成和数据质量检查等。同时,通过调研全国风自记纸的共性和特性,对存在的风速迹线迈大(小)步(风速笔尖正常跳动1次迹线上升或下降超过(或不足)1/3格)、同一张纸内风速迹线不连续或时间重叠的迹线中断等情况,提供操作便捷的人工编辑功能。
2 核心算法
系统在对图像进行处理的过程中主要采用Canny边缘检测算法对图像进行边缘检测;利用Otsu算法计算图像分割的最佳阈值,以实现图像边缘的自适应提取;通过Radon变换技术求解图像的旋转角度并对图像进行倾斜校正,这些图像处理技术文中不再详述。
2.1 迹线识别提取算法
2.1.1 图像预处理
图像预处理主要是对图像进行尺寸、分辨率调整,以及纠偏、去污等预处理。首先,将读入的彩色风自记图片转成灰度图;然后使用Canny边缘检测方法提取灰度图中画面的边缘,得到网格边缘的二值图;最后,通过Radon变换对二值图进行斜率计算,在(-3,3)的角度范围内旋转,进行图像校正并填充边缘。
2.1.2 风速风向网格提取
以风速网格提取为例:第一步,将风自记纸图片进行颜色空间的转换,从BGR转到CMYK。转换后,Y(Yellow)是包含了网格的灰度图,K(blacK)是包含了迹线的灰度图,用Y减K(Y-K)去除迹线的干扰,得到网格的灰度图,提取灰度图下部的40%为风速区域的灰度图。第二步,用Otsu算法对风速区域的灰度图进行二值化,得到网格的二值图,白点处为网格。第三步,设某行(列)白点数最大分别为maxR或maxL,统计每行(列)白点的数目。如果在某一行(列),它的白点数目大于maxR*0.5或maxL*0.5,且比临近的行(列)的白点数目多,那么此行(列)可能就是风速网格中的某条横线(纵线)所在的位置。第四步,根据风自记纸的特征,对上面求出的横线和纵线进行过滤,去除不合理的网格横线和纵线。当横线和纵线组成的矩形,宽度大于整个自记纸图片的宽度的60%,高度大于整个图片的20%,则风速网格边框提取成功。当横线为21条,弧线为148条时,则风速网格提取成功。当风速网格边框与风向网格边框基本左右对齐,则自记纸网格边框提取成功。
2.1.3 风速风向迹线提取
以风速迹线提取为例:第一步,将风自记纸图片颜色空间从BGR转换到CMYK,用K-(Y-K)去除网格的干扰,得到迹线的灰度图,提取灰度图下部的40%,得到风速区域的灰度图。第二步,用Otsu算法对风速区域的灰度图进行二值化,得到风速迹线的二值图,白点处为迹线。第三步,针对风速迹线的二值图,首先去除噪音和不合理的线段;其次进行两次二值图膨胀连接间距小的线段;然后连接距离小于r
的线段(r
为图片的宽度/148),保留宽度大于s
的线段(s
为图片的宽度/24),删除其余的线段,得到最终的风速迹线二值图;最后采取张氏细化算法对风速线二值图进行细化,对细化线进行去毛刺处理。第四步,遍历细化后的风速线,记录坐标点列表,然后针对坐标点列表依次进行稀疏化、单调性、峰值谷值等调整,得到最终的坐标点列表。2.2 风速风向计算方法
2.2.1 风 速
因风自记纸年代久远,部分纸张风速迹线模糊,试验表明,与按人工整理记录的“数跳”方法比较,利用“高度差”所计算的风速数据准确性更高。因此,系统采用计算高度差的方法计算风速,具体如下:通过风速迹线与风速网格求交,获取每一时刻的交点坐标。以10 min为单位时间,将每10 min的风速细化迹线的纵坐标位置求差,并取其绝对值,然后除以网格分辨率得到当前时刻T
分钟的10 min滑动平均风速值。即假设在时间t
时,交点坐标为(x
,y
),在t
前10 min的时刻t
交点的坐标为(x
,y
)。设t
<t
<t
,且t
时刻对应的交点为(x
,y
),那么高度差h
=max(|y
-y
(t
)|+|y
-y
(t
)|)。设风速网格的高度为H
,则风速网格的高度分辨率为w
=H
/20,于是风速v
=h
/w
。若小数部分≥1/6且<1/2,小数位记为3;若小数部分≥1/2且<5/6,小数位记为7;其他情况为0。2.2.2 风 向
与T
时刻风速相对应的10 min内,以风自记纸上提取到的每一条风向横线为时间轴,以风向竖线的时间间隔(2.5 min)为步长,对识别出的4条风向横线和多条风向竖线,挑取出现次数最多的风向为当前时刻T
分钟的风向,T
分钟的风向为包括T
分钟在内的前10 min的最多风向,其挑选方法与文献[20]中挑取各正点10 min最多风向的步骤相同。T
分钟风速为0.0 m/s时,风向为静风。2.2.3 小时和日最大风速风向
以每小时整点00分的风速风向数据作为该小时的风速风向。以20时为日界,从每日20:01到次日20:00的分钟风速记录中比较挑选出最大值作为该日日最大风速,并以此风速相对应的风向及时间作为日最大风速的风向及出现时间。当日最大风速出现两次或以上相同时,可任选其中一次的风向和时间。日最大风速可跨日、跨月、跨年挑取,但只能上跨。
3 应用效果分析
随机挑选榆林、呼中、茫崖、大同、无棣、林芝、萍乡等7站约15 000张风自记纸迹线提取数据,将原风记录视为“真值”,计算新风与原风记录的小时和日最大风速的平均偏差、平均绝对偏差、均方根误差及风向相符率,对比分析两者差异,评估提取数据的精度和质量,对评估结果中差异较大的数据通过分类比较、个例分析等方法,查找总结造成差异的可能原因。文中“偏差”和“绝对偏差”,均为新风速减去原风速值,并按16方位定量评价风向相符率,当两风向方位差在±一个方位以内时,则认为两者相符。即:风向相符率=风向相符次数/对比总次数*100%。
3.1 风记录对比分析
通过新风与原风日最大风与小时风记录对比(表1)分析发现,平均来看,新日最大风速大于原日最大风速,平均偏差在0.01~0.33 m/s之间,平均绝对偏差在0.28~0.57 m/s之间,均方根误差在0.43~0.96 m/s之间,风向相符率为79.7%~89.6%。小时风平均偏差在-0.08~0.01 m/s之间,平均绝对偏差0.13~0.22 m/s之间,均方根误差在0.23~0.84 m/s之间,风向相符率90.1%~99.9%。比较而言,新风与原风两者之间差异小时风明显小于日最大风,风速偏差更小,风向相符率更高。
表1 日最大/小时风速风向对比
以榆林站为例,设原风速为v
,分v
<3.0 m/s、3.0≤v
<7.0 m/s和v
≥7.0 m/s三个等级对比(表略)发现,无论日最大风还是小时风均表现出随着风速本身的增大,新风与原风两者间风速偏差变大,而风向相符率提高的现象。3.2 差异原因分析
除原风风速由人工“数跳”、新风利用“高度差”计算所得有所区别外,对于风自记纸记录,无论是早期人工整理还是现今使用迹线数据提取软件系统自动提取,均容易受到自记迹线模糊、粗细不均、中断、墨迹污染等纸张质量因素的影响。A文件中人工整理所得风自记纸记录因受观测员个人视力、习惯、采样时间不一致等影响,容易造成随机误差,而迹线数据提取软件系统采用统一的技术标准,计算精度高,系统误差稳定可控,数据的准确性和可靠性更高,长时间保存造成的纸张泛黄变色、潮湿或扫描变形对现今的迹线识别提取影响更大,这与文献[23]中“读取风向错误主要与图像中迹线的清晰程度有较大的关系,图像迹线越清晰软件读取正确率越高,且正确率优于人工读取”的结论一致。
1971~2004年榆林站新风与原风小时风速的平均偏差和绝对偏差有随时间逐渐变小的趋势(见图2),年平均偏差和绝对偏差分别在-0.19~0.0 m/s和0.12~0.23 m/s之间波动,20世纪70年代明显大于1980年以后,直到2004年风自记纸记录仅作为台站平行观测记录处理,偏差略有变大,也侧面反映了纸张质量、人工整理等因素对数据质量的影响。
图2 榆林站1971~2004年小时风速的平均偏差、 绝对偏差和风向相符率
4 结束语
该文简要介绍了EL型电接风自记纸迹线数据提取软件系统设计的基本思路、处理流程和主要功能,以及系统所采用的应用Otsu算法改进的Canny图像边缘检测方法实现的迹线数据提取算法、风向风速数据计算算法,并通过比较A文件中人工整理的风速风向与利用软件系统提取的风数据之间的差异和分析差异原因,评估软件提取数据的质量和精度。应用效果表明:系统对标准的EL型电接风自记纸图像识别率可达到100%,能够满足风自记纸数字化对数据质量和精度的要求。因对比分析数据样本较少,尚不能全面代表风自记纸迹线提取数据的质量,有待在风分钟/小时标准数据集的制作过程中进一步进行质量评估。