APP下载

国家地下水监测系统数据治理技术和体系

2024-01-08王卓然卢洪健高攀

水利信息化 2023年6期
关键词:监测数据水位网格

王卓然 ,卢洪健 ,高攀

(1.水利部信息中心(水利部水文水资源监测预报中心),北京 100053;2.水利部国家地下水监测中心,北京 100053;3.山脉科技股份有限公司,陕西 西安 710075)

0 引言

国家地下水监测工程共建设国家级地下水自动监测站 20 469 个,建成覆盖全国的国家地下水自动监测系统,监测站网密度和频次显著提高,水位、水温、水质等自动监测信息通过地下水监测站 RTU 设备由公网每日发送至国家地下水监测系统接收平台。2022 年,国家地下水自动监测系统共约产生 2.46 亿条数据,自运行以来累计接收及发送的数据量超过 12 亿条。现代化水文监测技术带来了海量监测数据,数据的处理和管理面临巨大挑战[1]。

地下水监测工程虽然建设了大量站点,但监测站仍存在分布不均匀的情况,部分地下水超采区站点密度不足或密度处于 GB/T 51040—2014《地下水监测工程技术规范》[2]规定的密度下限。另外,国家地下水监测工程要求地下水自动监测系统数据月到报率和交换率不低于 95%,完整率不低于 90%,虽然目前国家地下水监测系统实际运行“三率”高于《地下水监测工程技术规范》要求,但仍无法实现所有监测站点全部到报。地下水自动监测在采集、传输、解析数据的过程中,虽然单站异常率较低,但由于总站数多,实时监测数据量较大,故异常数据总量仍较大。为确保监测数据可以为治理考核、科学评价提供坚实基础,避免由于舍弃数据或数据不准确带来的成果偏差,充分发挥工程和数据效益,地下水监测数据和数据应用必须做到提质增效及精益求精。目前,地下水数据处理还存在经验、认知、方法不足的情况,地下水数据治理尚未形成数据治理体系,存在的主要技术问题包括:

1)海量历史数据和实时数据整合处理难度大、复杂性高。地下水监测数据来源多样,包括历史人工监测、国家站自动监测、地方站监测、外部委共享交换等数据,由于不同时期的建设标准不一致,地下水监测历史上还存在大量未整编数据,实时入库的数据须在某一规则下与历史资料在完整性、一致性、准确性、合理性、代表性[3]等维度相衔接,地下水数据治理缺少完整的治理体系且无可借鉴的规则和技术经验。

2)动水位、假埋深等地下水特殊性质数据主要依靠人工识别,缺乏智慧治理方案。国家地下水监测工程建设及试运行阶段,针对数据不稳定、跳变等情况提出了固定阈值概念,即当相邻 2 个监测数据变幅超过 2 m 时系统自动发送警报,通过人工操作放行或修正,初步解决了报大数问题。国家地下水监测工程建设前存在对异常值、动水位、假埋深等特殊数据性质认识不足的情况,如没有考虑井台高,使埋深值偏大,造成假埋深等情况。地下水水位受强人类活动影响且数据监测过程中存在缺报、异常、跳变、数据漂移等复杂情况,数据治理主要依靠人工,缺少自动化识别手段。

3)地下水多元异构数据标准化处理难度大,无法提供可支撑智能应用体系的数据采集手段。地下水数据除水位、埋深、水温、水质等监测数据外,还有成井柱状图、岩芯数据、水文地质参数、历史等值面线矢量数据等多元异构数据,各类数据尚未形成网格化数据产品或系列标准化数据,无法直接应用,地下水各类数据量多但获取的信息较少,缺少可靠、可用的参数数据集。

为得到可靠性强、可信度高、可用性好的地下水数据,探索性地建立一套国家地下水监测系统数据治理体系,目标是实现海量数据的治理和整合,特别是地下水实时监测、历史监测、多元异构参数等数据的标准化和体系化。

1 地下水数据治理体系技术路线

地下水数据治理体系依据地下水数据类型,分为以下 3 种体系:

1)地下水实时监测数据四级质控体系。地下水实时监测数据数量控制,以中央业务库接收的数据到报率、完整率和交换率为指标进行综合评价。质量控制实行四级质控:一级质控,在省级接收库实行固定阈值对比和数据初步质控;二级质控,在省级业务库进行假埋深对比识别和动水位识别处理;三级质控,在中央业务库实现自适应阈值对比分析、多要素关联分析和数据延长插补;四级质控,在成果库进行异常值和地下水特征值分析,全过程采用自动识别+专家经验,或专家经验+自动识别+人工校核的方式进行数据治理,极大提高了数据治理效率。地下水实时监测数据四级质控体系技术路线如图 1 所示。

2)历史监测数据治理体系。历史监测数据对于掌握区域地下水情况、了解地下水取用历史、支撑治理效果评估等具有非常重要的意义,是宝贵的数据资料。国家地下水监测工程非常重视地下水历史监测数据的收集和整理,地下水历史监测数据为人工监测,多为 5 d 监测井监测数据,部分为每月报送 1 次。历史监测数据的治理重点为假埋深、动水位的修正和数据插补及延长,治理体系技术路线如图 2 所示。

图1 地下水实时监测数据四级质控体系技术路线

图2 历史监测数据治理体系技术路线

3)多元异构数据标准化治理体系。国家地下水监测工程所有新建井均编制了成井柱状图,完成了抽水试验,获取了部分水文地质参数,同时收集了部分历史水文地质参数和等值面线矢量数据,这些多元异构数据数据量庞大,结构复杂。为此,国家地下水监测工程基于 1 :1 000 000 标准地图建立了全国尺度的统一公里固定网格,将各类数据进行标准化处理和空间重采样网格赋值,形成了系列标准化数据及网格化数据集。多元异构数据标准化治理体系技术路线如图 3 所示。

图3 多元异构数据标准化治理体系技术路线

2 基于地下水数据特征的数据治理方法

地下水根据含水介质的差异可分为孔隙水、裂隙水和岩溶水,地下水类型的差别造成地下水水位动态差异明显,同时由于影响地下水扰动的因素复杂,受气候变化、人类活动、地层结构等多重影响,补给、径流、排泄途径各不相同,因此地下水动态类型多,数据治理难度大。Tabachnick 等[4]将异常值产生的原因划分为错误数据输入、计算编码故障、数据污染和真实数据 4 类。国家地下水监测系统运行以来,将数据异常的原因归纳为以下 2 种:

1)人为因素。人为因素引起的异常主要包括:监测站运维,进行水样采集、抽水或开采,以及地面高程等基础信息调整引起的数据波动或跳变;更换压力式水位计探头时,线缆长度测量不准或数据线未保持垂直状态,导致基础计算参数不准确;人工比测误差或操作错误;假埋深等。

2)非人为因素。非人为因素引起的异常主要包括:降雨等因素引起的数据跳变;监测站出现井干、井淤、泉干、自流、结冰、地面积水等现象;仪器设备探头损坏或元器件稳定性不足,产生数据漂移;数据传输时由于网络不稳定导致数据缺报、多报或冗余;召测数据由于数据量较大,超过报文字符数,分包发送导致解析错误等情况。

要建立高质量地下水监测数据库,须实现在线实时大量数据的自动化识别、处理和修正,以提高数据质量。基于地下水数据特征的数据治理体系以特征值统计、大数据多要素关联分析、数据驱动模型和数值模型为主要技术手段,实现自动化数据质控、假埋深自动识别与修正、异常数据自动识别、自适应阈值对比分析等治理,辅以动水位数据人工识别与修正、基于测站运维记录的数据插补和异常数据人工再校核,实现全国地下水监测数据与信息一体化管理。

2.1 数据初步质控自动化

数据初步质控主要实现错误数据的自动识别,充分考虑地下水监测数据特征,使用数据库数据自动对比技术,将以下数据判别为错误数据:埋深数据小于或等于0,但本监测站非自流井或灌区井;埋深值大于井深;水位值大于地面高程,但非自流井或灌区。

2.2 假埋深数据自动识别与修正

地下水埋深应为地下水水面至地面的垂直距离。监测站在建设时,会在井口和地面分别设置固定点,井口固定点为人工观测或安装自动监测设备的基准点,地面固定点为确定地面高程的基准点。为方便工作,在安装仪器设备时,多使用井口固定点作为电缆线长计算点,即设备读取的埋深为水面至井口固定点的距离,但易出现假埋深的情况。

在应用数据前,须对各监测站的地面高程值、固定点高程值、监测埋深值、水位值等 4 种数据进行相互校核。若相互间校核数据存在矛盾,须调查核实并根据相互关系进行修正处理。

2.3 基于测站运维记录的数据插补

在对自动监测站水位资料进行插补时,连续缺测时间不得超过 240 h,且缺测前后应有准确的监测数据。在巡测和运维过程中,准确的人工监测数据应视为正常监测数据,可作为资料插补的依据。测站运维中的现场比测记录是地下水监测数据插补的重要依据。通过地下水测站移动运维 App,现场比测或人工监测的数据能够实时上传,在整编或应用实时数据时可作为数据修正或插补的参考。

2.4 地下水动水位识别与修正

基于国家地下水监测工程监测数据的治理实践和经验,采用奇异值突变检测和滤波去噪等数理统计方法,辅以地下水运维记录等参照,提出动水位识别与修正方法。对于规律性动水位,如由抽水引起水位临时性明显下降,但停止抽水后当日水位能迅速恢复的(如学校、农村定时供水等),可取地下水恢复后的高水位为基准值,对抽水期间的动水位进行插补、修正。对于突变型动水位,应根据以下实际情况确定处理方法:

1)由开采等原因造成的水位突变。水位过程线陡然变化,不平滑,不连续,应对相应突变监测数据进行插补、修正。

2)由洗井造成的水位突变。水位稳定前,应对水位恢复期内的动水位监测数据进行插补、修正;水位稳定后,洗井造成水位阶梯状变化,但洗井前后监测数据准确,不宜进行插补、修正。

水位资料插补可选用直线、趋势、等值线等插补方法,水位资料修正可选用阶梯型、渐变型、混合型等修正方法。

3 异常值识别主要技术手段

地下水监测可疑数据多为异常大值、小值或突变值。对可疑数据的处理需要保持谨慎态度,一方面,保留极端观测值(异常值)通常会使统计分析复杂化;另一方面,简单删除或插补可能会导致预判不足,影响与水资源系统设计、运行和管理过程相关的决策,导致设计过于保守或不满足设计要求[5]。

地下水数据治理中可疑数据的筛选方法按照应用方式可分为以下 2 类:

1)基于现有数据,使用统计和概率模型法或基于相似度量模型的方法进行判别。统计和概率模型法,主要对数据的分布做出假设,通过极值分析或者假设检验找出假设下定义的可疑数据;基于相似度量模型的方法,依据数据某方面性质,如距离、密度分布、类、树或者谱,对数据进行分类,从而识别出可疑数据。这类方法是分析基础。

2)使用数据驱动模型或地下水模拟方法对预测值和实时监测数据进行分析,识别可疑数据。常用的数据驱动模型,包括时间序列方法(如灰色理论、自回归滑动平均模型)、随机过程方法(如马尔科夫链预测模型)和基于人工智能的方法(如人工神经网络、单类支持向量机等)[6-10];地下水模拟方法较多,包括数值法、解析法等。这类方法是发展趋势。

在国家地下水监测系统中,异常值的识别主要有4 种技术手段,分别为地下水特征值数据库对比分析、综合数值统计分析、大数据多要素关联分析和阈值对比分析。

3.1 地下水特征值数据库对比分析

地下水特征值数据库依据整编数据自动生成单站特征值表,包括日/旬/月/季度/年最大、最小、平均埋深,日/月/年最大、最小、平均变幅,平均年末差。随着监测时间的延续及数据量越来越丰富,可通过绘制频率分布曲线或总结不同水文相似年水位动态的方法,准确判断数据的合理性。将特征值表与实时监测数据相对应,可自动识别异常大和小值。

3.2 综合数值统计分析

数值统计分析将监测值与相邻监测值的差值作为研究对象,不考虑地下水水位数据的时间属性,通常用于监测序列较短的数据。常用方法包括k倍标准差法、四分位距法等,如地下水监测中不同时空分布出现异常值,应对当时监测点周围的具体情况(地质水文因素变化、气象、附近污染源情况等)进行分析,不能简单地用统计检验方法决定取舍。

为增加可疑数据筛选的精确程度,可采用 2 种以上方法叠加处理。对于序列较短的数据(日连续监测序列小于 5 a),采用四分位距法与基于距离的变幅阈值法叠加筛选可达到较好的识别效果[11]。由于这种方法仅考虑单变量异常值识别,在灌溉集中期和降水较大、地下水水位持续上升过程中,会识别出大量的异常值。

3.3 大数据多要素关联分析

将地下水水位与同一水文地质单元同一层位的其他监测站或水文要素,如降雨量、开采井、地表水流量等监测数据相互关联,对数据波动进行分析判断,可实现多元监测值关联识别。国家地下水监测系统可实现各类地下水相关数据和信息的整合,包括水文、地下水监测信息、降水量、地下水取用水信息、地下水调查评价和规划信息。基于大数据思想的数据挖掘、深度学习、预测诊断、决策分析等能力建设智慧使能类服务,可为上层业务应用提供模型、算法等基础能力。目前的应用场景包括以下 3 种:

1)针对取水层位可能被隐藏或跨行政区划地下水开采使用管理等问题,基于国家地下水监测工程现有站网体系、地下水水位变幅通报技术路线、代表站网等成果,引入大数据分析方法,系统可自动匹配周边开采层位监测井、混合井监测水位变化情况。

2)对于地下水水位突然上升或稳定非波动性下降的情况,考虑降水、生态补水或干旱影响,结合气象站蒸发、降水等数据对地下水监测数据进行分析,确定水位变化具体原因。如水位数据在短时间内产生较大幅度跳变,但却没有相应的开采或降水,同一水文地质单元同一层位的其他站点未出现波动,则判断为异常数据。

3)对于缺少专用监测井监测数据的地区,用大数据方法对其他监测数据进行分析,判断该地区地下水水位变化情况。

3.4 阈值对比分析

阈值对比分析包括固定和自适应 2 种阈值对比分析,自适应阈值对比分析的关键在于地下水模型的建立,地下水模型通常包括地下水数值或数据驱动等模型。地下水系统结构复杂,地下水数值模型可以刻画水文地质条件、人类活动影响及其他诸多因素综合影响下的地下水流动规律。数据驱动模型多使用时间序列法,基于地下水水位数据的时间属性,认为时间相近的监测值比时间相距较远的监测值具有更强的相关性[12-13]。在 5 年以上连续监测资料的基础上,根据监测序列特征选择适宜的模型构建方法,经过不断的检验和优化,构建拟合程度较高的模型。对地下水水位变化进行预测,对比预测值与实时监测值,将超过预测范围的监测值标定为异常值。不断进行再预测,可实现自适应阈值对比分析。

4 多元异构数据标准化治理

多元异构数据标准化治理主要分为以下 3 个步骤:

1)建立全国统一编码的标准化公里网格。参考国家测绘地理信息局提供的 1 :1 000 000 标准地图,四角坐标分别为(73.25°E,53.67°N)(73.25°E,18°N)(135°E,18°N)(135°E,53.67°N)。全国统一编码的公里网格四角坐标与标准地图一致,使用的坐标系为地理坐标系China Geodetic Coordinate System 2000,投影坐标系阿伯斯投影(双标准纬线等积圆锥投影)。网格编码面向地下水应用编制,编码共 9 位,容量达到百万量级。编码由 AB 两部分组成,其中 A 代表省份,用 2 位数字表示,B 代表网格序号,由 7 位数字组成。网格序号按照网格空间位置从左到右及从上到下的顺序进行编码,没有达到 7 位的数采用补 0 方式处理,取值范围为 0 000 001~9 999 999。在公里网格尺度下,提取网格中心点,作为后续网格数据集产品赋值依据。

2)数据标准化。数据标准化包括以下 3 个子步骤:a.数据清洗转换。由于汇集的各类数据资源来源、空间坐标、数据格式、数据结构、属性分类体系等存在较大差异,因此须按要素对汇集的各类数据进行分类分层,并进行数据清洗,具体包括地理编码与空间化、数据格式转换、数据坐标变换、属性处理、图形处理、结构化处理等一系列清洗功能,清洗后的数据具有统一时空参考、空间数据格式和分类编码体系。b.对比整合。针对不同来源、类型、尺度的数据资源,根据不同业务应用服务需求进行比对分析,具体包括空间、属性、范围、现势性、精度等比对功能,系统、全面地评价各对象和各图层空间及属性的一致性及差异。c.数据质控。基于比对分析结果,须选取表达准确、现势性好、精度高、内容全的要素进行分层组织,形成地下水数据基础库和产品库。为保证各类数据的标准化、现势性、准确性、丰富性、结构化等方面达到最优,须具备几何拓扑、空间关系、逻辑等一致性处理功能,以进一步提升数据资源的规范化和权威性。提供基于灵活、可配置方案的数据质控功能,可提升方案设计的灵活性与便捷性,提高自动质控结果的正确率,降低人工复检、核检的工作量。

对数据清洗转换、对比整合和质控等过程产生的数据问题,须具备问题反馈及管理功能。

3)网格赋值。以国家地下水监测一期工程收集的各类参数矢量数据为基础,进行分层、分类空间重采样后,将标准化的数据与公里网格中心点相连接,形成参数网格数据产品。边界部分网格采用相邻网格参数补充。计算各平原区网格时,边界处容易出现网格边界与实际边界不贴合的情况,对计算结果产生的影响不可忽略,因此需要合理的处理方案。经讨论和查阅资料,以网格面积占比 75% 为原则,对计算区域边界处网格进行处理:当边界处网格大于或等于75% 的面积在计算区域内时,将该网格纳入本区域;当边界处网格小于 75% 的面积在计算区域内时,不纳入本区域。在此规则下,形成网格化数据集。

由于基础数据集包含种类繁多、体量庞杂的数据资源,为保证数据服务的多样性和高效性,国家地下水监测系统已开发 52 个接口,满足对基础信息、降水、三维模型、统计表格、专题图和多媒体等各类服务产品的加工支持,满足个性化、定制化和多样化的应用需求。

5 辅助模块

5.1 地下水监测数据在线整编系统

地下水监测数据在线整编系统架构采用 B/S 架构,基于 J2EE,GIS 和数据交换等技术,实现中央、流域、省级、地市四级水文部门之间数据的实时共享与在线整编操作,实现数据校核、处理、入库、统计分析、成果输出、年鉴审核等流程化作业,以及系统中央节点部署、用户统一管理、权限分布式配置、数据集中入库等管理功能,基本实现地下水整编资料“日清月结”,极大提升了数据整编的时效性。系统功能结构如图 4 所示。

地下水数据在线整编每年形成标准化的日平均地下水水位(埋深)、水温整编数据 1 000 多万条,高质量日值数据得到了实时应用,实现了全国地下水监测数据与信息的一体化管理,为开展地下水动态分析评价、预报预警等工作提供了可靠的数据支撑,极大促进了工程效益的发挥。

5.2 地下水测站运维 App

为实现自动监测与人工监测的智能连接,解决监测站点高度分散管理难的问题,依靠已建国家地下水信息系统,开发了包含测站运维管理、综合应用运维和信息上报、面向测站运维的前端展示三方面内容的地下水测站运维 App。可在线生成运维路线并进行智能优化,前端运维任务自动分配,现场比测数据一键入库,实现了测站运维多功能、智慧化。

地下水监测数据在线整编系统和测站运维 App 2 个辅助模块集中部署在中央节点,简化了原有数据交换流程,确保了整编数据的即时性与准确性,从技术上实现了地下水资料整编“日清月结”,同时节约了大量人力及时间,实现了地下水数据可用不可见,“批流一体”兼顾了数据安全与应用,2 个辅助模块使得地下水实时校测在线整编一体化修正技术得以实现。

国家地下水监测系统数据治理体系在实践中发挥了明显作用,经过治理,国家地下水监测系统整体数据完整率由 92.90% 提升至 99.43%,可用数据率达到99.01%,数据平均日完整率提高了 5.93%,实时监测数据修正率提升了 2.56%,整编数据修正率提升了 0.06%。

6 结语

国家地下水监测系统通过建立地下水数据治理体系,实现了海量数据的治理和整合。实时监测数据四级质控体系实现了对到报数量和质量的双控制;地下水历史数据处理体系实现了历史数据与实时监测数据的一致性,延长了数据时间长度,为地下水治理提供了数据支撑;多元异构数据标准化治理体系统一规范并形成了成井柱状图、水文地质参数(如给水度、大气降水入渗系数)等多元异构数据的网格化数据集,大大提高了后续信息服务和智能应用效率。

地下水数据治理的关键在于针对各种数据类型,建立一整套数据标准化处理流程:采用数据库数据对比计算,实现了数据初步质控的全面自动化和假埋深数据的自动识别与修正;采用适用于地下水数据处理的数据驱动和地下水数值等模型,形成了多种技术手段辅助的异常值识别方法体系;开发一系列在线软件,实现了地下水数据在线“批流一体”和基于测站运行维护记录的数据插补。

数据处理由主要依靠人工识别转变为自动识别、人工校核的模式,结合实时校测、在线整编一体化修正技术,极大提高了数据处理和整编效率。数据可靠性强、可信度高、可用性好,通过《全国地下水超采区水位变化情况通报》等实际应用,相关数据和成果直接纳入最严格水资源管理制度考核,数据科学性、完整性、准确性得到广泛认可,为地下水调查与规划、节约与保护、超采治理、污染防治和监督管理提供了数据支撑,为高水平地下水信息服务产品和智能应用提供了坚实保障。

猜你喜欢

监测数据水位网格
用全等三角形破解网格题
反射的椭圆随机偏微分方程的网格逼近
GSM-R接口监测数据精确地理化方法及应用
重叠网格装配中的一种改进ADT搜索方法
基于曲面展开的自由曲面网格划分
基于MFAC-PID的核电站蒸汽发生器水位控制
GPS异常监测数据的关联负选择分步识别算法
基于小波函数对GNSS监测数据降噪的应用研究
变电站监测数据采集系统
基于PLC的水位控制系统的设计与研究