省级智慧水利数据标准体系建设
2022-12-28张伟平刘志云
陈 晨,王 伟,张伟平,刘志云
(中国电建集团中南勘测设计研究院有限公司,湖南 长沙 410014)
0 引言
国家“十四五”智慧水利建设规划指出,虽然“十三五”建设取得了显著效果,但水利信息化与国家信息化总体要求及其他行业信息化发展程度相比,水利信息资源开发利用有待提升,这主要表现在行业内部整合不够,水利设施基础信息不全,准确性不高;水利基础数据不统一,水利对象代码未统一,数据标准不一致,在不同业务和层级之间存在重采、重存的现象[1]12;分散建设的信息基础设施条块分割,相互封闭,制约了整体效益发挥。为解决当前智慧水利建设存在的不足,智慧水利建设应标准先行,完善和细化涵盖基础设施层、感知层、网络传输层、数据、平台、业务应用等方面的标准体系建设顶层设计,指导智慧水利信息化建设。
智慧水利数据标准体系建设是为了规范水利行业系统建设时对业务的统一理解,增强业务和技术部门对数据的定义、描述、分类和编码使用的一致性,减少诸如一名多物、一物多名,对同一对象有不同分类和描述,以及同一对象具有不同编码等混乱现象;规范统一数据资产管理,减少数据转换,方便数据展示和共享,消除信息孤岛,促进智慧水利信息系统建设;减少垃圾和冗余数据,提高数据质量,支撑智慧水利数据底板建设,提升业务应用系统智慧程度。
1 数据标准体系建设前提条件
1.1 构建数据标准管理组织
省级智慧水利数据标准体系建设应从顶层设计角度出发,不仅需要得到主管部门的重视和支持,更需要建设实施执行的业务和技术部门共同参与,形成与“十四五”规划建设任务组织实施相适应的管理组织体系[1]145,组建数据标准委员会(以下简称数标委)组织。数标委可分管理组和实施组,管理组进行资源协调和推进,实施组针对专业领域的标准进行编制、修订及评审,二者分工协作,共同推进标准化工作。实施组以网信部门组织统筹,协调各业务部门设置数据管理岗位,分为数据标准岗、模型岗、质量岗、服务岗、安全岗,在水利部基础、监测、空间数据等相关标准的基础上,根据本省情况对数据标准体系进行内容扩充、数据汇集梳理、融合治理入库;对业务数据进行标准化定义、分类与编码;对标准数据共享进行管控,形成一套长效管理机制,推动智慧水利数据标准化建设工作。
1.2 制定数据标准管理制度
管理制度是约束、规范管理组织行为的工具。制定数据标准管理制度可约束、规范和指导数标委的数据管理活动。数据标准管理制度可从政策、制度、细则 3个层次进行,由数标委根据实际情况制定地方水利数据治理与管理的目标、基本原则等相关政策层面的条款;由不同专业领域的数据管理专业人员制定数据管理的具体办法、规则及使用流程等制度;由专业领域的数据管理专业人员制定本专业数据技术规范、使用范围及管理的具体细则,确保管理制度执行落实。从制度层面明确智慧水利建设相关方在数据标准化推进工作中的职责,建立数据标准规划、编制、评审发布、落地执行、维护增强流程,从制度上保障数据标准化的推动。
1.3 完善标准化实施保障措施
推动智慧水利数据标准体系建设,需要有一系列的保障措施为其保驾护航。首先,在完善智慧水利建设专班统一领导、各部门分工协作、共同推进数据标准化工作机制的基础上,强化数据标准化主管部门的牵头、协调和推动作用;其次,建立标准实施监督和评估机制,对新建、改造等信息系统项目进行标准化实施绩效评价,加强标准实施信息公开,增强实施绩效评估能力;最后,强化人才培养,大力开展标准化相关培训,从业务部门中培养专业领域的数据标准化管理人才,深化标准化与业务的结合,推动数据标准化人才队伍的快速成长。
2 数据标准体系建立过程
在数据标准体系建设和实施过程中,经常会遇到哪些数据需要定义标准,原建设好的应用系统不标准怎么办,标准如何落实到位等诸多困惑。从当前有关智慧水利建设案例实践来看,数据标准体系建立过程一般有 2种途径:1)借助当前建设契机,按顶层设计要求,构建数据标准体系,强制按标准实施,将不符合数据标准规范建设的旧系统和数据逐步淘汰,做到统一规划和实施;2)将已建设的旧系统进行部分重构或改造,与新建系统混合,既要做好旧系统的对接,又要按标准化建设新系统,还要融合治理旧系统数据源,解决数据质量问题,为应用提供支撑。数据标准化建设必须从实际出发,按顶层构架总体要求,一事一策,多方兼顾,统筹协调,稳步推进。
针对智慧水利数据标准体系建设过程中的困惑与问题,主要从以下方面着手梳理,推进数据标准落实:
1)按业务领域梳理推动数据标准化。聚焦各业务领域的数据标准化需求,在有需求、有目标的前提下,有的放矢地驱动业务数据治理,按需组织推进数据标准化工作。只有业务部门的深度参与并根据业务自身需求制定的标准,才符合行业规范、专业深度,才能得到业务部门的认可。
2)按核心基础和业务专题数据分类梳理和推动数据标准化。聚焦各业务领域使用的数据内容及特点,深度分析数据性质,按共性的、核心的基础数据和业务专题独特的、特殊的数据进行分类和标准化工作。只有将数据术语定义、维度、深度标准化,才能在数据认知上达到一致。
3)按系统推进标准落标。聚焦系统建设全过程中的数据需求,加强管控数据标准在系统应用中的落地情况。通过使用标准化的数据结构和字典进行建模,实现数据存储和表达的标准化管理、应用,进而规范数据标准。对于新建或重构系统,须采用落标策略;对于旧有存量系统,可采用升标策略,逐步增加数据标准。
4)按数据质量问题梳理推动源头数据标准化改造。聚焦数据融合治理过程中发现的重点、重要的数据质量问题,诸如数据多口径、低时效、质量不可靠、关系不明确等,通过按标准化要求改造系统,从源头上消除数据不规范等问题,进而达到提升数据质量的目的。
3 数据标准体系编制参考依据
省级智慧水利数据标准体系建设应按照遵从上位标准、完善本地标准、补充空白标准、标准指导应用的原则,结合智慧水利总体框架[2]4–6、数据对象内容及本省业务需求情况进行编制,除信息系统开发建设必须遵从的相关信息技术规范外,参考的水利行业依据应包括但不限于对象定义、分类与编码、数据库表结构,以及标识符、数据目录、共享交换规则等,可参考的标准规范[3]77如表1所示。
表1 数据标准体系编制参考依据
4 数据标准体系框架设计
按照“统一指标体系、统一文件格式、统一分类编码、统一信息交换格式、统一名词术语”的标准化体系编制原则,考虑科学性、系统性、全面性、继承性、可扩展性等因素,通过智慧水利顶层设计、信息化数据治理体系研究,结合智慧水利信息化建设项目经验,可将智慧水利数据标准分为基础、采集传输、存储管理、质量管理、安全管理、共享与服务等 6个方面[3]76–78,[4],为智慧水利数据产生、流转、应用等全过程管理构建标准体系,标准体系框架[5]如图1所示。
图1 智慧水利数据标准体系框架
1)基础标准。基础标准[6]15是整个智慧水利数据标准体系建设的基础,定义了智慧水利建设过程中涉及的相关基础术语、名称,统一参与建设人员对数据相关概念认知的一致性;规定数据对象分类及分类编码规则,以保证科学数据组织、存储及交换的一致性,便于数据开发利用和共享;明确数据对象责任主体及职责范围,保证建设落地的可执行性。
2)采集传输标准。采集传输标准是智慧水利数据全面汇聚的前提,规定了水利数据中心所采集的水利数据的基本内容与属性结构、采集手段与方法、数据格式与转换流程等,在采集源端将数据规范化、标准化,以保证数据的可集成性。
3)存储管理标准。存储管理标准[6]16是智慧水利数据标准体系建设的重点,规定了水利数据内容存储的方式、结构及标识说明,建立数据对象关系逻辑和索引模型,规范化数据分类分级,以保证数据查询效率及使用性能。
4)质量管理标准。质量管理标准是智慧水利数据标准体系建设的核心,规定了水利数据采集汇聚、融合存储、共享应用、消亡等全生命周期每个阶段数据质量分析,质量评估,数据取舍的控制方法和评价指标,从数据准确性、合规性、完整性、及时性、一致性、唯一性等方面进行识别,度量,监控和预警,以保证数据准确、可靠、可用,充分发挥数据价值。
5)安全管理标准。安全管理标准是智慧水利数据安全的保障,规定了数据本身安全、防护安全的技术要求,数据保密等级划分,敏感数据保护场景、规则、技术方法,以及数据操作管理规范、活动监控等,以保证数据的安全性,防止重要数据泄露,造成经济损失,危害社会安全。
6)共享与服务标准。共享与服务标准是智慧水利数据流通的关键,规定了水利数据共享与服务的模式、数据内容和格式、共享流程及交互方法等,以保证数据的开放性,便于数据在可控范围内访问与交互,避免数据孤岛产生。
5 数据标准体系建设实践
省级智慧水利数据标准体系建设分为管理与技术 2个层面的建设。管理层面相关的组织、制度须与各省的水利部门建设与职能分工情况相结合,因地制宜;技术层面应服从水利部顶层架构,根据省情进行细化和扩充。本研究以湖南省为例,探讨水利数据标准体系建设基础标准中最基本的、也是最重要的水利对象分类编码及数据库结构设计实践。
5.1 水利对象分类
水利对象按抽象类和实体类 2个层次进行,抽象类为固定 4 类,实体类是为了便于智慧水利及数字孪生流域建设颗粒度的深化。结合湖南省实际情况,在 SL/T 213—2020《水利对象分类与编码总则》(以下简称《总则》)的基础上进一步细化和扩充,扩充和改变包括:
1)水利工程抽象类。在《总则》确定的 21 类实体基础上增加了水库附属设施、前置库工程、厂房、溢洪道、泄水建筑物、通航建筑物、管道、碧道工程、人工湿地等 9个实体类对象;将《总则》中橡胶坝类型更名为拦河坝,将橡胶坝、翻板坝、液压坝等拦截河道以抬高水位或调节流量的挡水建筑物归类为拦河坝。
2)监测站(点)抽象类。在《总则》确定的水文监测站、水土保持监测站、供(取)水量监测点和水事影像监视点等 4 类实体的基础上增加工情监测站(点),采集水库大坝、堤防等水工程位移、形变、渗流渗压等安全状态;采集水闸、泵站运行状态;采集管、涵压力和形变等安全状态而设立的监测或观测点归为工情监测站(点)。此外,在水文监测站点中增加内涝监测站,在水事影像监视点中增加遥感监测站。
3)其他管理对象抽象类。在《总则》确定的14 类实体基础上增加洪水风险区、干旱风险区、水利风景区、河道断面、节水载体、雨污水分区、水情教育基地、水文化展馆、水利工程建设用地范围、水利工程管理范围、水利工程保护范围等 11个实体类对象。
5.2 水利对象编码
水利部发布的关于水利对象编码的标准或规范较多,同属于某类对象的编码在不同标准里的规则有所差异,如《总则》中河流水系、湖泊实体对象采用 8 位流域水系分区代码 + 4 位顺序码的 12 位代码结构,而在 SL 249—2012《中国河流代码》中,河流水系采用拉丁字母(I,O,Z 舍弃)和数字混合的 8 位字符代码结构;在 SL 261—2017《湖泊代码》中,湖泊编码采用 1 位湖泊固定代号字母 L + 2 位湖泊所在流域水系二级代码字母 + 4 位同流域湖泊面积大小顺序数字 + 1 位湖泊矿化度分类字母等8 位字符代码结构。在实践中,需综合考虑多方面因素,在遵循科学性、唯一性、简约性、稳定性、扩展性、实用性编码原则的基础上,同时遵循以下编码原则:
1)上位标准优先原则。标准分国标、行标、地标等,在对象编码规则编制时,应采取上位标准优先的原则,如取用水户单位、个人的特殊实体对象编码有国标,其对象编码应采用国标规则。
2)标准发布时间优先原则。同行业内,当同类对象编码规则在不同标准中有冲突时,宜采用发布时间最新的标准为主进行编码。
3)编码规则尽量统一原则。采用《总则》规定编制编码规则,除《总则》规定的特殊水利对象外,尽量统一采用 5 位分类代码 + 实体代码 + 1 位校验码的规则进行水利对象赋码,实体对象代码字符位数根据实际情况进行扩充,编码规则按对象情况分类、区分。
4)行政区划型编码规则优先原则。省级智慧水利数据标准体系建设宜充分考虑下级智慧水利建设数据共享的需求,在水利对象编码可采用流域水系型或行政区划型时,优先采用行政区划型规则进行编码,以便于数据共享、使用和管理。
5)编码从两端向中间相向递进原则。因受地域情况影响,各省涉及的水利对象有所不同,种类也将在《总则》基础上进行扩展,扩展对象的编码宜采用顺序位末端开始向前倒序排位的方式进行,而在《总则》规定内的对象编码应采用顺序位初始端开始向后顺序排位的方式进行。
6)行业特殊编码包含原则。智慧水利建设涉及水文、气象、生态环境、城市住建等相关行业的数据共享接入,这些行业数据的对象编码本身带有行业规范和特点,且在全国范围内已形成统一标准体系,在融合建设过程中,该类对象的编码宜采用统一规则在实体代码内考虑保留或包含原编码。
DPN的发生发展被认为与高血糖、代谢紊乱、炎症及免疫应答反应、有髓神经脱髓鞘、胰岛素抵抗有关[4]。然而,严格的血糖控制或醛糖还原酶抑制剂治疗仅对早期DPN有效,对已有症状的DPN尚无有效的治疗方法[5]。明确DPN的发病机制仍是当务之急。小窝蛋白(caveolin,CAV)家族参与糖尿病外周神经病变过程,CAV-1调节机体炎症反应以及有髓神经纤维脱髓鞘病变,CAV-2与胰岛素抵抗过程密切相关。现对CAV在DPN中的作用机制及研究进展予以综述。
5.3 数据采集与传输
智慧水利数据包括动态监测数据和相对静态的基本属性信息数据。静态基本属性信息数据经归集、整编、一次性入库,后期修改频次较少;动态监测数据是时序数据,随时间推移不断变化,需实时采集、传输、融合治理、入库。
动态监测数据包括雨情、水情、水质、工情监测及视频影像监控等多种数据,各类数据的采集与传输应按行业规范要求进行,无明确行业标准规范的建议在水利行业最常用的标准上进行扩展,以达到“五个统一”管理要求。数据采集与传输要求如下:
1)通信协议。在水利行业中,因水文水资源监测站点多、范围广,相应的 SL 651—2014《水文监测数据通信规约》和 SL/T 427—2021《水资源监测数据传输规约》采集传输协议也最常用,所以雨情、水情动态监测数据采集通信规约应根据实际建设需求情况采用 SL 651—2014,SL/T 427—2021这 2种协议;水质监测业务及对象更多偏向环境专业,且在环保行业中已有标准的传输规约,所以水质监测数据采集传输应按 HJ 212—2017《污染物在线监控(监测)系统数据传输标准》;有关工情监测的通信规约有国家能源局发布的 DL/T 324—2010《大坝安全监测自动化系统通信规约》,该规约有一定的局限性,且扩展性不如 SL 651—2014,建议新建设的工情监测站(点)宜采用在 SL 651—2014 上扩展的协议;视频监控采集传输方面,有国标 GB/T 28181—2016《公共安全视频监控联网系统信息传输、交换、控制技术要求》,遵从上位原则,视频监控通信协议应按 GB/T 28181—2016 统一。
2)通信方式。各类监测监控站点的通信方式应根据地域特点、测站类型和实际建设条件确定,宜采用双通道模式冗余设计,且 2种通信方式不能受同类外在因素影响,以提高通信可靠性。如 GSM(Global System for Mobile Communications),GPRS(General Packet Radio Service)虽可算 2种通信方式,但均受移动信号影响,一旦移动基站信号中断,数据采集即会中断;而换成 GPRS 或 GSM 冗余卫星,即可解决数据采集受通信方式制约的问题。
3)采集模式。除视频监控外,其他各类监测数据采集终端原则上均应具备主动自报、应答查询功能,以满足动态监测数据的定时报、随机报、条件触发加报、中心查询应答实时值和时段值等要求。
4)采集频次。随着监测技术的发展,业务应用对监测数据采集密度要求也越来越高,合理的数据采集密度对未来变化趋势预报和当前形势告警实时性尤为重要。各类监测数据的采集频次应按监测要素的特点和测站特性,同时考虑通信成本进行设置:水情、雨情监测数据采集频次建议为 5 min/次;水质监测数据采集频次建议为 1 h/次;工情监测数据采集频次建议为 2 h/次;视频监控除带有 AI 识别监测信息的站(点)外不宜设置采集频次,其他应根据实际需求能随时调阅。
5.4 数据存储结构设计
1)基础属性数据库。采用 SL/T 809—2021《水利对象基础数据库表结构及标识符》为蓝本,结合各省涉及的水利对象情况,按 SL/T 809—2021 的设计原则,根据水利对象基础和重要的基本属性信息、相关指标参数、对象术语、设计标准规范进行对象基础数据存储表结构设计。基础属性数据库包括基础对象信息表、对象之间关联关系表、字典信息表等 3 类。
2)监测数据库。采用 SL 323—2011《实时雨水情数据库表结构与标识符》为蓝本,结合水文、水环境、工程安全、气象等有关要素监测情况,设计和扩展监测库表结构。监测数据库表包括监测相关的指标和曲线等基本、实时、预报、统计、交换、字典等 6个信息类。
3)地理空间数据库。空间库用于存储各类空间数据资源,需整合水利厅/自然资源厅/住房和城乡建设厅/生态环保厅等相关部门的基础地理、水利对象专题、DEM 高程、影像等数据。采用 SZY 304—2013《空间数据库表结构及标识符》为蓝本,以水利对象基础矢量数据实体为核心,分点、线、面、体 4个基本类进行实体联系模型(E-R 模型)设计,存储结构表设计。
4)业务专题数据库。专题库存储各类业务应用系统的过程和成果数据,可参考业务相关的标准规范设计数据库模型。根据建设的业务需求范围,可分水安全、水资源、水环境、水生态、水工程、水事务、多媒体及其他等八大类专题,根据业务需求进行设计。
5)元数据库。元数据库存储各类数据库结构数据的描述信息,是按照数据结构组织、存储和管理数据的仓库。元数据库设计需包括核心元数据、内容、标识、质量、版本发布、访问限制等信息。
5.5 数据质量监控与评估
数据质量受数据处理过程各个环节的影响,宜进行全生命周期的质量管控,对应数据生产、处理、消亡过程,制定质量控制规范及评估方法。将数据标准体系建设中涉及的水利基础属性和动态监测数据中所有可监控、可计算的数据指标进行分类统计,形成数据质量监测指标,并进行实时监控与评估。一般情况下,数据质量从合规性、完整性、一致性、准确性、及时性等 5个方面进行监控评估[7]。
1)合规性。监测和评估数据是否满足定义的数据规范性要求,即描述数据遵循预定规则的符合程度。无论是基础属性还是监测数据,都可以从数据记录的类型、格式、取值范围等方面进行检测和判断合规情况,并将合规和不合规占比等情况进行统计展示。
2)完整性。监测和评估数据内容是否符合业务约束要求,即描述数据信息缺失的程度。对于基本属性基础类数据的完整性,应对业务要求的关键信息字段进行空值判断,检测数据记录缺失率;对于时序监测数据,应根据测站类型的采集频次和监测要素配置进行数据记录完整度判断,检测数据上报的时段畅通率及监测要素项完整率,并形成总体、个体指标进行统计展示。
3)一致性。监测和评估数据内容是否遵循统一的规范,数据集合是否保持统一的格式和存储方式,即描述数据信息统一的程度。对于水利对象基础数据的一致性应检测其对象是否符合分类语义规范,对象属性描述纬度是否一致,各对象同类属性格式、精度及要求是否一致,编码规则是否一致等;对于实时监测数据,应根据数据类型检测采集频次、数据单位、高程系统、源端数值与应用端数值是否分别一致,除此之外,还应检核其数值之间的逻辑关系和依赖条件是否存在一致性。
4)准确性。监测和评估数据记录信息是否存在异常或错误,即描述数据值与所描述的客观事物的真实值之间的接近程度。水利基础数据的准确性应检测对象数量、参数、特征数值、位置描述、数据有效时间等是否与物理现实一致。因基础数据具有多源、无明确标准值等特点,准确性检测较为困难,一般情况下采取人工审核方式进行检查、判断和标识。监测数据的准确性应对数值是否在合理值域区间内,数据变化是否符合时序系列趋势规律,数据大小是否符合空间分布规律,数据值是否符合理论规律等方面进行检查、判断和标识,宜采用统计、同化方法进行指标计算和监控展示。
5)及时性。监测和评估数据记录信息是否满足用户对数据产生到可以查询使用时间上的要求,即描述数据流转的快速程度。水利基础属性数据成型后,更新频率不高,时延要求较低;监测数据属于动态时序数据,流转速度关系着业务应用,尤其是在应急决策应用时,时间就是一切。监测数据应记录产生、入库时间,并计算延时,统计各类监测数据在时段长度内时延满足业务要求程度,同时进行实时监控和展示。
5.6 数据安全管理
针对省级智慧水利数据中心数据安全综合管理能力建设需求,对标交通、公安等其他行业先进的建设思路与方法,可从数据安全管理、运营、技术等 3个纬度进行数据安全体系[8]建设,对数据采集、传输、处理、存储、交换、销毁等阶段进行管理和技术要求方面的标准规定,并开发数据安全监管平台,实现敏感数据分析[9]和监控、异常行为监控、数据权限管理等功能,达到“事前可管、事中可控、事后可审”的水利数据安全管理目标。
1)事前可管。按资源目录的方式对水利数据进行分类分级,采用 AI 算法、自定义规则识别敏感数据内容,并使用智能加“*”(自动将敏感内容替换成“*”符号)[10]、洗牌、格式保留加密(FPE)、差分隐私等方法对其进行加密存储;对数据访问用户进行权限分配;对可访问的敏感数据进行脱敏算法设计、规则制定及策略设置[11];编制数据安全事件应急预案并进行模拟演练。
2)事中可控。结合规则、行为、场景分析和智能 AI 学习等方法,对数据访问用户进行认证、鉴权及标识;对数据的操作行为进行实时监视;对数据操作过程进行记录;对异常行为进行实时告警、动作阻断、用户隔离。
3)事后可审。根据检测规则和审计策略实时拉取数据日志、文件并进行审计,形成合规审计报告;对风险操作和异常操作进行事件追踪溯源,形成安全复盘报告;定期对历史数据事件进行趋势分析,对存在风险及时进行预警提醒。
5.7 数据共享与服务
根据 SL/T 799—2020《水利数据目录服务规范》要求,结合《总则》分类情况,按基础、监测、业务专题、空间等四大主题数据,围绕业务属性逐层细化数据类目,编制水利数据资源目录;通过合理的数据共享流程审批,采取内外有别的共享方式提供水利数据服务。
1)内部共享服务。数据资源需求方和提供方通过水利信息资源共享交换与服务管理平台实现数据内部共享服务,数据的共享交换方式包括但不限于服务 API 接口、数据库直连、文件等方式。
2)外部共享服务。按照省级政务信息资源共享交换要求,由数据资源需求方提出申请,通过数据资源生产管理责任方审批,共享交换服务方开放访问权限等流程,在省政务信息资源共享平台上实现数据共享与服务,外部共享一般通过服务 API 接口方式实现。
6 结语
作为智慧水利标准化的重要组成部分,数据标准体系从采集到存储、融合治理到分析应用贯穿数据的全过程,对全方位提升数据质量,加强安全管控,保障支撑上层智慧业务应用,充分挖掘和体现数据价值有着重要意义。数据标准体系建设旨在保证智慧水利数据资源池建设全面、科学开展,并符合相关顶层设计要求,引领智慧水利建设项目落地。基于项目实践浅析了智慧水利数据标准体系框架设计与建设过程中各要点的主要内容和具体方法,但在基础资料汇集整编标准化方面还有所欠缺。总结成果对类似项目建设具有参考价值,借鉴过程中需进一步与项目实际情况进行深度融合,尤其在标准规范基础上扩展的内容需重点关注,以保证符合标准的前提下因地制宜,满足智慧水利数据中心建设需求。