国家地表水环境质量评价、分析与表征系统初步构建
2022-10-28嵇晓燕李文攀孙宗光李亚男胡小燕
嵇晓燕,杨 凯,李文攀,孙宗光,李亚男,胡小燕
中国环境监测总站,国家环境保护环境监测质量控制重点实验室,北京 100012
自2017年国家地表水环境质量监测事权上收至今,地表水环境质量监测网已经初步实现了水质自动监测与采测分离手工监测相结合的监测模式[1]。同时,国家地表水环境质量监测网在经历了多轮的优化调整完善后,从2021年起增加到3 646个国控断面,断面数量是最初国家网的10多倍[2]。在此监测网络和监测模式下,国家地表水环境质量监测网每个月产生数百万计的监测数据。如何科学传输、融合、处理、挖掘、分析这些海量的监测数据,及时满足监测业务需求[3],为环境管理提供支撑,是亟待解决的问题。为此,急需建立国家地表水环境质量评价、分析与表征系统,对地表水环境质量监测数据进行快速灵活的评价、统计和分析,进一步满足“十四五”国家地表水环境质量监测业务需求,为国家水生态环境管理提供高效、科学、有力的技术支撑。本文主要介绍了国家地表水环境质量评价、分析与表征系统的构建目标、构建内容、实现功能以及技术创新点,可为同类系统的构建提供参考。
1 系统构建目标
基于水质传感、网络通信、商务智能、地理信息、三维空间展示等技术,集成多种类、多格式、多标准的多元监测数据,构建可实现对数据的融合、共享、评价、考核、排名、统计与分析,并生成丰富的报告报表和专题图等功能的国家地表水环境质量评价、分析与表征系统。该系统能够融合国家地表水采测分离手工监测数据、自动监测数据以及相关专项监测数据,形成统一的国家地表水环境质量监测数据中心,并在此基础上进行地表水环境质量评价排名、统计分析,最终结果通过GIS、图表等形式进行数据表征和展示,并为各级水环境管理部门提供数据共享服务。
2 系统构建内容
2.1 系统总体架构
国家地表水环境质量评价、分析与表征系统是对水质监测数据进行数据管理、分析评价、服务应用和表征展示的系统,依托综合物联网感知技术、商务智能、地理信息系统等技术进行设计开发,包括数据来源层、数据存储层、应用支撑层、业务应用层和表征展示层5个部分,安全保障体系和标准规范体系贯穿开发过程。数据来源层作为整个系统的数据基础,通过集成自动监测、采测分离手工监测和各类专项监测数据为数据存储层提供数据支撑;数据存储层在数据来源层提供的数据基础上,结合基础信息库,对数据进行加工处理,并分类存储,为应用支撑层提供数据接口;应用支撑层通过集成水质传感技术、工作流引擎、商务智能(BI)工具、报表工具和GIS软件技术,为业务应用层提供技术支撑;业务应用层在应用支撑层提供的技术基础上,结合实际业务需求,对监测数据进行综合分析及应用;表征展示层对业务应用层的综合应用结果进行图形化展示;安全保障体系是系统安全、稳定运行的基础,保障了各项业务数据和应用服务的安全可靠;标准规范体系是系统建设和运行的基础,是系统各类监测数据统计分析的根本依据。系统总体架构如图1所示。
图1 系统总体架构图Fig.1 System overall architecture
2.1.1 数据来源层
数据来源层作为系统整体的数据基础,集成地表水环境质量多种类、多格式、多标准的多元监测数据,为数据存储层提供数据支撑[4]。通过通信协议、数据集成接口和数据文件整合自动监测、采测分离手工监测及各类专项监测数据,构成国家水环境质量评价、分析和表征的数据基础。
2.1.2 数据存储层
数据存储层把国家地表水环境质量相关监测数据按照相应规则和结构有序存储,数据结构的设计既能够满足历史数据的查询、统计、对比的需求,又能够支撑“十四五”国控断面监测点位的调整与扩展,保证数据集成具有扩展性。
数据存储层包含其他基础信息库以及地表水环境融合数据库和地表水环境评价分析数据库2个核心数据库。其他基础信息库部署于国家水环境监测VPN专网,主要用于存储断面基础信息数据、环境基础空间数据和水专题空间数据。地表水环境融合数据库部署于国家水环境监测VPN专网,系统基于该数据库集成各类专项监测数据,并进行自动监测数据与手工监测数据的数据融合,根据融合数据计算并存储初步水质评价考核结果和统计分析数据。地表水环境评价分析数据库部署于国家水环境监测内网,用于支撑水质评价排名计算,并存储最终评价排名结果,生成正式国家水环境质量报告。
2.1.3 应用支撑层
应用支撑层提供水质传感技术、工作流引擎、BI技术、报表工具、GIS软件等信息技术能力,通过统一的能力引擎和技术架构,为系统运行提供通用应用服务和集成服务。本系统基于应用支撑层提供的技术引擎,依托水质传感技术,通过传输协议,集成地表水监测数据;采用BI技术,实现对不同颗粒度数据的灵活统计分析;采用报表工具,结合监测业务的需求,实现对各类水质报告的在线生成和编辑;采用GIS软件,实现对监测评价结果的多维动态展示。
2.1.4 业务应用层
业务应用层是对业务需求的实现,基于数据存储层的数据,结合应用支撑层提供的技术支持,按照业务逻辑进行数据展示[5]。业务应用层提供了业务支撑能力和具体业务功能的实现,包括数据融合、数据共享、数据统计分析、水质报告生成等模块,系统的数据访问基于业务逻辑进行,并根据系统角色进行权限控制。其中,数据融合包括数据审核、会商讨论、数据校核、最终入库等模块,基于数据融合规则,通过会商审核,融合采测分离手工监测数据和自动监测数。数据共享模块基于各地水环境管理需求,面向全国省(区、市)、流域中心提供国家水环境监测共享数据接口。数据统计分析模块包含水质查询统计、考核查询统计、排名查询统计、专项数据统计等模块,分别基于不同监测数据集及不同的业务需求和统计方法,进行国家水环境质量统计分析。水质报告生成模块能够根据数据存储层中存储的多源异构数据与统计分析结果数据,按照报告模板,自动生成全国及相关流域、区域水环境质量报告,以及南水北调水环境质量报告、长江经济带水环境质量报告等专项报告,所生成报告可以导出为WORD、PDF等文件格式。
2.1.5 表征展示层
表征展示层是提供用于交互的应用服务图形界面,呈现业务应用层中传递的数据、直接的系统交互和数据结果界面。基于数据存储层提供的统计分析结果数据和业务应用层提供的业务逻辑,通过报表、图表和地图表征等多样化的数据展示形式,面向不同的业务需求,构建全国地表水环境质量综合展示大屏、全国地表水环境质量统计图表和专题图,通过地图与统计图表等多样化展示方式的结合,全面、直观展现全国地表水环境质量监测数据的评价考核排名结果。
2.1.6 安全保障体系
系统从网络安全、主机安全、应用安全、数据安全等多个方面进行安全加固,建立统一、安全、稳定、规范、高效的信息系统安全保障体系,充分保护网络与基础设施、区域边界与外部连接、计算环境、支撑性基础设施,从而保证信息系统的各项业务应用以及业务数据的安全可靠,使系统具备有效的安全防护能力、隐患发现能力和系统恢复能力,保证系统长期安全、稳定和高效运行,并能够不断完善和发展,实现以安全保应用,用安全促应用,以适应不断扩展的业务应用需求并保障系统信息安全。
1)网络安全:通过禁用高危端口、开启服务器防火墙功能、严格控制访问策略,采用白名单的机制开通策略,只允许开放特定业务端口,其他端口一律禁止访问,做好业务间安全隔离。
2)主机安全:定时更新系统补丁,修复系统漏洞,保证服务器在操作系统级别的安全可靠。同时安装杀毒软件,定期做好病毒库更新和病毒查杀,定期扫描并修复Web漏洞、主动防御加固程序,并对上传到服务器的文件类型进行限制和安全扫描,实现对网络流量、网络攻击行为等的监测。
3)应用安全:使用加密协议对数据内容进行传输,启用密码规范和登录失败处理功能,防止暴力破解;根据角色范围进行分级授权,实现账户权限分离。
4)数据安全:系统数据库采用自动备份和离线备份相结合的方式进行数据备份,自动备份采用每小时事务日志备份、每日增量备份、每周全库备份的方式对数据库进行定期备份。离线备份采用每月全库备份的方式对数据库进行备份。
2.1.7 标准规范体系
标准规范体系是支撑整个系统建设和运行的基础,是系统核心算法的根本依据,主要包括法律规范、管理规范、技术规范和传输规范(表1)。法律规范从法律层面对系统构建提出了明确要求,是系统构建并稳定运行的根本保障;管理规范是系统建设需要遵循的基本准则;技术规范对系统中的数据修约、数据审核、数据统计、水质评价、水质考核、水质排名等功能提供了技术要求;传输规范为系统集成多源监测数据提供了技术规约。
表1 标准规范性文件Table 1 Legal,management and technical specifications
2.2 系统网络结构
在对自动监测、手工监测、专项监测等水环境监测数据进行数据整合时,按照相关规定,通过数据通信协议或集成方式接入系统,通过通信公司通信链路建立数据传输的广域网络,实现数据的接收与整合。经过网络安全传输再通过环保专网接入,环保专网和内网之间通过网闸设备单向传输数据。在系统部署中采用了环保专网与内网分别部署的方式,分别支持不同的应用需求。其中,部署于环保专网的服务器主要面向管理部门以及其他相关业务、科研部门,提供数据融合、数据共享、专项数据统计分析等功能;而部署于内网的服务器则主要满足地表水环境质量评价考核排名的业务需求。所涉及的通讯网络结构如图2所示。
图2 系统通信网络层次结构图Fig.2 System communication network hierarchy diagram
2.3 系统建设内容
国家地表水环境质量评价、分析与表征系统以数据融合为基础,集成国家地表水环境质量监测数据,构建了“一个融合、两个数据库、三个应用、四个中心”,通过系统数据流串联(图3)。“一个融合”指通过集成多源异构监测数据,并对自动监测数据和手工监测数据进行数据融合,形成整个系统的数据基础。“两个数据库”是在“一个融合”的基础上,对集成的多源异构数据、融合数据、初步统计分析结果数据进行分类存储,形成地表水环境融合数据库;基于水质评价统计分析结果、水质考核统计分析结果、水质排名统计分析结果,形成地表水环境评价分析数据库。“三个应用”是指在“两个数据库”的基础上,依据地表水环境评价、分析及数据表征的需求形成环保专网应用、环保内网应用和地图数据表征应用。“四个中心”是基于“两个数据库”,提供国家水环境监测数据融合与快速综合应用、评价排名和报告生成、数据共享等核心功能,构成对综合应用、数据共享、评价考核、报告报表4个国家水环境监测数据应用的支持中心。
“一个融合”指数据融合,系统集成了不同功能、不同监测对象的多源异构数据,为国家地表水环境质量分析与表征提供广泛的数据支撑,实现了国控断面自动监测数据和采测分离手工监测数据融合,形成统一的国家地表水环境评价数据,并通过数学模型智能发现和处理数据质量异常,为国家水环境质量评价分析提供全面可靠的数据基础。
“两个数据库”是指地表水环境融合数据库和地表水环境评价分析数据库。前者部署于VPN专网,用于支撑自动监测数据、手工监测数据以及专项监测数据的数据融合,存储国家地表水环境评价数据集,并支撑初步水质评价、快速统计分析等环保专网数据应用;后者则部署于内网,用于进行正式水质评价与正式报告报表的生成。
“三个应用”构成了系统的整体应用框架,是指在“一个融合”与“两个数据库”构建的数据基础上,基于国家地表水环境质量评价、分析与表征业务需求,构建的环保专网数据应用、环保内网数据应用和地图数据表征应用。其中,环保专网数据应用部署于VPN专网,提供数据融合与初步评价功能;环保内网数据应用部署于内网,实现国家地表水环境评价排名分析;地图数据表征应用部署于内网,通过GIS专题图等形式,提供国家地表水环境质量评价排名和统计分析数据综合表征和展现功能。“三个应用”满足了国家地表水环境质量评价、分析与表征业务需求。
“四个中心”是指包含于环保专网数据应用的综合应用中心、数据共享中心以及包含于环保内网数据应用的考核评价中心、报告报表中心。其中,综合应用中心提供基于融合数据的国家水环境质量监测数据快速综合应用,包括基础信息管理、灵活报表生成、数据综合分析、初步水质评价考核排名等功能模块;数据共享中心面向全国各省(区、市)环境管理部门和七大流域中心提供共享数据;考核评价中心提供水质评价、水质考核、水质排名的计算功能,形成国家水环境质量考核评价结果;报告报表中心则基于考核评价结果,生成国家水质月报、水环境质量新闻通稿等各种类型的水质综合分析报告以及其他专项监测报告。
3 系统实现功能
3.1 数据集成融合
全集成国地表水环境质量各类监测数据,包括自动监测数据、采测分离手工监测数据、国界河流专项监测数据、南水北调专项监测数据、长江经济带专项监测数据、黄河流域专项监测数据、三峡库区专项监测数据、水生生物专项监测数据、水功能区专项监测数据以及地市和区县级饮用水监测数据等相关数据。
按照水环境质量考核评价以“自动监测数据为主、手工监测数据为辅”的要求,在数据集成的基础上,根据水质自动站平稳运行站点清单和手工监测断面清单,对自动监测数据和采测分离手工监测数据进行数据融合,即pH、溶解氧、水温、浊度、电导率、高锰酸盐指数、氨氮、总磷和总氮9项指标采用自动监测数据,其余指标采用采测分离手工监测数据;上年水质稳定为优且未建设水质自动监测站的断面,采用每季度首月21项手工监测数据进行补遗。融合的自动和手工监测数据是多源异构数据,监测指标不同、监测频次不同,在系统实现过程中,基于多维矩阵计算原理,通过创新算法,克服了差异性问题,实现了基于“5+X”原则的自动、手工监测数据融合与数据修约,构建了包含21项评价指标的统一标准的国家地表水环境评价数据集,为国家地表水环境质量评价排名与统计分析提供了数据基础。同时,在数据融合过程中,为了保证融合数据质量,建立了统计模型对数据恒值、超出检出限、数据毛刺与突变等数据质量问题进行异常判定,主动发现并排除异常数据,提升水环境质量评价与数据统计分析的准确性和可靠性。
3.2 数据共享互通
在满足地表水环境质量监测管理业务的基础上,按照国家相关数据共享政策,每月向各省和流域中心等其他水环境质量管理相关单位提供共享数据,实现全国地表水环境质量监测数据的共享互通[6]。系统定期自动生成共享数据文件,并通过FTP、WEB下载等方式为省(区、市)、流域中心等不同数据需求单位提供共享数据。所生成的数据文件包含数据融合后的考核断面监测数据以及水质类别、超标指标、超标倍数等考核断面水质评价结果数据。通过数据共享,能够更好地为全国地表水环境管理工作提供数据支持,为全国流域的水环境管理、污染事件预警、流域内跨界纠纷解决和生态补偿提供数据依据。
3.3 数据统计分析
基于集成与数据融合后的数据,依据《地表水环境质量标准》《地表水环境质量评价办法(试行)》《城市地表水环境质量排名技术规定(试行)》等国家标准和技术规范的要求,提供数据统计分析功能。在统计分析部分,系统引入BI技术,提供强大的统计分析能力;对全国地表水环境质量监测数据建立多维数据模型,以多维数据联机分析处理(OLAP)[7]技术支持灵活统计分析,支持随机数据查询、统计,支持数据上钻、下钻、切片、切块等操作,灵活快速进行计算,提高监测数据的统计分析效率。统计包含水质评价统计分析、水质考核统计分析、水质排名统计分析及专项数据统计分析等。系统提供的常用统计分析功能包括:
1)水质评价统计分析。可选择自动监测数据、手工监测数据或融合数据集作为数据源进行水质评价统计分析。根据各断面每个月不同的监测指标,对数据进行基础水质评价分析;在此基础上系统能够进行单月和多月水质评价,可选择断面、河流、湖库、省份、流域等进行不同区域的统计,并支持自定义评价方法和参评指标进行水质评价。水质评价统计分析内容包含断面水质评价、河流水质评价、湖库评价、超标因子统计、定类因子统计、各类水质占比情况及同环比变化情况、可比数据查询统计、各省(区、市)水质类别占比情况及同环比变化情况、各流域水质类别占比情况及同环比变化情况等[8]。此外,系统也支持按照75分位、90分位和95分位等不同统计方法对水质自动监测数据进行水质评价分析;按照不同时段、不同监测指标、不同数据类型对专项数据进行水质评价分析。
2)水质考核统计分析。以融合数据集作为数据源,按照省份、城市、断面不同维度查看水质评价情况,并结合对应考核目标,进行达标分析。系统支持单月和多月的水质考核结果统计,包含考核点位查询、考核断面查询、达标率统计、年度达标情况查询等功能。考核点位查询是将点位评价结果与考核目标相比,判断点位是否达到考核目标,统计国考点位达标情况和超标污染物情况。考核断面查询是按照考核断面的要求,对湖库点位按照湖区合并评价,并与考核目标相比,统计国考断面达标情况和超标污染物情况。达标率统计是统计各个省份的考核达标情况,包含考核断面总数、监测断面总数、无监测断面总数、达标断面数、达标百分比、超标断面名称等。年度达标情况是统计各省(区、市)Ⅰ~Ⅲ类和劣V类水质断面比例2项约束性指标的达标情况。
3)城市排名统计分析。以融合数据集作为数据源,计算地级及以上城市单月和累计月的水质指数。系统支持自定义参评指标计算水质指数,提供排名断面CWQI查询、排名城市查询、排名断面CWQI变化查询、可比排名城市变化查询等功能。排名断面CWQI查询是计算单断面各个指标的水质指数,根据各个指标的水质指数计算断面单月和累计的水质指数,并可根据自定义参评指标计算水质指数。排名城市查询是依据排名城市断面的监测结果计算出每个城市的河流CWQI和湖库CWQI,然后取其加权值得出城市的CWQI,并统计城市的应有断面总数、当月排名断面数、城市所在水体的水质类别[9]。排名断面CWQI变化查询是统计各个断面与去年同期相比水质指数CWQI的变化情况。可比排名城市变化查询是统计各个城市与上年同期相比水质指数CWQI的变化情况,并统计出参与排名和未参与排名的断面名称、城市的最差水质以及城市包含各水体的水质状况。
3.4 水质报告生成
系统支持按照预设格式,一键生成全国地表水水质月报以及重点流域、南水北调、长江经济带、饮用水源地等专项报告,通过文字、图表等形式,直观全面反映国家地表水环境质量状况,为我国水生态环境管理提供技术支持。系统同时支持生成全国水环境质量报告新闻通稿、微信公众号等新媒体报告材料,为满足公众对水环境质量状况的知情权提供信息获取渠道。
3.5 地图空间表征
丰富地表水环境质量状况的表征形式,通过GIS专题图提供地表水环境质量状况地图表征,直观展示全国地表水环境质量监测网状况、全国地表水环境质量总体状况、重点流域/重点区域地表水环境质量状况等信息。自动生成全国水质专题图,重点流域、各省份水质专题图,重要湖库水质专题图,长江经济带、京津冀区域、长三角、大湾区、新三湖等分流域、区域水质专题图,以及南水北调、入海河流、环渤海、三峡库区、国界河流、城市集中式饮用水源地、水生态等重点专项的水质专题图等地图表征。
3.6 综合大屏展示
为展示全国地表水环境质量监测网的情况,建立“全国地表水环境质量一张图”,在统一界面的全国流域地图上通过饼状图、柱状图、折线图、滚动报表等多种形式,直观地展示全国地表水监测断面监测情况、全国及各流域/省份断面不同水质类别断面占比情况、断面主要污染物情况、全国地级及以上城市排名情况等,并能够通过缩放地图展示级别,查看具体断面数据,支持图层上翻、下钻等操作,以不同空间层次展示水环境质量监测情况、监测数据和评价结果。
全国层面:全国地表水国考断面监测情况、全国不同水质类别断面占比情况、全国主要污染物情况,十大流域不同水质类别断面占比情况,各省(区、市)不同水质类别断面占比情况,全国地级及以上城市排名情况。
流域层面:流域地表水国考断面监测情况、流域不同水质类别断面占比情况、流域主要污染物情况,干流不同水质类别断面占比情况、支流不同水质类别断面占比情况,流域断面水质情况。
省份层面:省份考核断面监测情况、省份不同水质类别断面占比情况、省份考核断面主要污染物情况,省份内各市不同水质类别断面占比情况、各市排名情况,省份考核断面水质情况。
城市层面:城市考核断面监测情况、城市不同水质类别断面占比情况、城市主要污染物情况、城市轮廓图。
断面(点位)层面:点位基本信息、点位现场照片、指标浓度、评价结果、定类指标、水质变化。
4 主要技术创新点
在系统开发过程中,通过在多源异构数据融合、智能化质量控制、多层级水质评价与统计分析、地图动态数据表征等技术创新来满足国家水环境质量评价分析工作中不断发展的业务需求。
1)多源异构数据融合技术。国家地表水环境监测数据是涵盖自动监测、手工监测等类型的多源异构数据,不同类型的监测数据存在监测时间、监测频率、监测点位不一致的情况,而且自动监测数据包括9项监测指标,采测分离手工监测数据涵盖24项指标。在系统开发中,面向具有显著差异的多源异构监测数据,根据数据优先级规则,利用多维矩阵计算技术,设计出创新性的多源异构数据融合算法,首先通过稀疏矩阵相乘得到高维数据矩阵,然后利用SVD降维法对高维矩阵进行降维处理,得到原维度监测数据矩阵,从而能够有效利用服务器算力,高效实现了基于“5+X”原则的自动、手工监测数据融合,构建了包含21项评价指标的统一标准的国家地表水环境评价数据集,为国家地表水环境质量评价排名与统计分析提供了数据基础。
2)智能化数据质量控制技术。通过分析断面历史水质监测数据,建立断面水质监测数据质量特征库,并相应运用全指标孤立森林检测模型、关联指标异常检测模型和单指标异常检测模型对数据恒值、超出检出限、数据关联性异常、数据毛刺与突变等数据质量问题进行数据异常判定,主动发现数据质量异常并进行排除。从而通过模型实现智能化数据质量控制,保证了国家水环境质量评价分析数据基础的准确性。
3)多层级水质评价与统计分析技术。基于国家地表水环境评价数据集,综合利用水质类别评价、水质指数评价等方法,实现对地表水环境断面、河流、流域、城市(省份)等多层级的水质评价。在系统开发中创新性地引入OLAP等技术,基于关系数据库的联机分析处理(ROLAP)模型,支持数据钻取与切片,实现多维数据查询与统计分析,并能够自动生成报告报表和新媒体报告,从多层次、多角度对我国地表水环境状况进行评价与统计分析,为全面了解我国地表水环境质量现状及其变化趋势,提升我国地表水环境质量管理水平提供了更加全面科学的技术支撑。
4)地图动态数据表征技术。在对地表水环境监测数据进行评价、统计、分析的基础上,通过与空间地图表征的数据联动,创新性地实现了基于地图的从断面到流域、从城市到全国,涵盖从监测数据到统计结果的多层次动态图形表征。在实现过程中,首先进行监测评价数据的统计分析预处理,基于全国流域地图建立300余个动态图层,并通过数据与GIS图层联动技术支持数据钻取、切片等操作,以数据表格、数据图形等形式,在流域地图上形成基础监测评价数据、统计分析数据的多形态、多层次数据表征。
5 结语
国家地表水环境质量评价、分析与表征系统的构建,通过在多源异构数据融合、智能化数据质量控制、多层级水质评价与统计分析、地图动态数据表征等方面的技术创新,克服了国家地表水环境质量评价分析面临的监测数据来源多样、监测指标、监测频率不一等困难,结合数据融合、数据质量控制、数据修约等技术手段,形成了统一的国家地表水环境质量数据中心,为国家地表水环境质量评价排名工作提供了可靠准确的数据基础;在此基础上实现了国家地表水环境质量监测数据评价排名、统计分析、报告报表生成、地图展示表征、数据共享等功能,直观、准确、全面地展现了全国地表水环境质量状况,提升了国家地表水环境监测数据管理、分析及可视化能力,为环境管理及决策人员提供科学有效的信息服务及技术支持。基于此系统,国家地表水环境质量评价每年提供近1 000份水环境质量信息产品,既满足了各级水环境管理部门的需求,又满足了公众的信息知情权,为地表水环境质量评价分析工作提供了强有力的技术支撑。