水库基础数据治理工作的研究与实践
2022-12-28陈德清宋子亨
雍 熙,华 东,陈德清,宋子亨
(1.水利部信息中心,北京 100053;2.阿里云计算有限公司,北京 100089)
0 引言
随着信息化、数字化、智能化的不断发展,数据的重要作用越来越广泛地成为全社会的共识[1],随着网络成为新的基础设施,我国的数据量开始迅速增长。2014年在澳大利亚举行的 IT 治理和 IT 服务管理技术委员会第一次全体会议上,中国代表首次提出数据治理的概念[2]。2020年中央文件《关于构建更加完善的要素市场化配置体制机制的意见》明确提出要加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值,建立统一规范的数据管理制度,这充分表明了党中央国务院对数据治理的重视[3]。目前许多政府部门和企事业单位都已充分重视自己掌握的数据资产,并通过各种先进的技术手段[4–5]开展数据治理的相关工作[6–9]。
水利数据是政务部门和社会普遍需要的自然资源和空间地理基础信息,也是保障民生的重要政府数据。水利数据当前存在数据治理基础设施能力不足、数据规范程度不高、数据整合共享不充分、大数据分析能力弱等问题,这些问题成为制约水利信息化发展的瓶颈。为贯彻落实《促进大数据发展行动纲要》(国发〔2015〕50 号)精神,解决水利数据能力短板,2017年5月水利部印发了《关于推进水利大数据发展的指导意见》,提出要“按照实施国家大数据战略要求,立足水利工作发展需要,健全水利数据资源体系,实现水利数据有序共享、适度开放,深化水利大数据应用,促进新业态发展,支撑水治理体系和治理能力现代化。”2019年6月,《水利部关于印发水利网信水平提升三年行动方案(2019—2021年)的通知》(水信息〔2019〕171 号)明确将“水利大数据治理服务行动”列为十大行动之一。利用云计算框架、物联网和大数据挖掘等信息化智能化手段,对水利数据进行更加充分有效的治理,是水利行业更好地为经济社会发展服务的必由之路[10–11]。
水库是重要的水利工程,在防洪、灌溉、蓄水发电等多方面发挥着作用,水库基础数据也是重要的水利数据,因此对水库数据进行研究和治理对于治理水利其他数据有着重要的借鉴意义。水库基础数据治理存在着以下诸多难点:
1)水库数据掌握在地方业务部门手里,再由地方共享到水利部本级,有的业务部门数据更新不及时,造成数据老旧,各地数据质量参差不齐,差别较大。
2)水库基础数据被应用于多个业务系统,因此数据重复建设现象严重,并且各系统数据库表中的数据标准不统一,给日后的数据融合智能应用带来很大困难。
3)水库数据多为不同口径填表,多个表格的数据指标并不一致,如水库名称、位置、库容、建成年月、坝高等数据往往存在一定差异。
由于水库数据来源多,涉及面广,全国水库的基础数据已多年没有进行统一清理了,存在许多错漏。为探索水利数据治理的方法和技术路线,以水库基础数据治理展开试点研究工作,以进一步发挥水库数据的价值。
1 水库数据治理工作研究
1.1 数据治理总体框架
水库数据治理总体框架如下所述:首先通过大数据平台工具完成采集、集成、加工等流程,构建完成水库数据资源体系,并通过数据安全、质量、监控等模块进行系统化管理。
接着基于数据仓库方法论设计基础层、明细层、专题层。 基础层主要将不同数据源的数据进行同步,明细层对各种数据进行质量控制和标准化处理并按内容进行分类,专题层则产生服务于水利业务的专题数据。
最后针对水库数据仓库内的数据,梳理水库基础标签,根据业务逻辑建立衍生标签。通过标签圈定特定水库群体,对水库群体进行画像分析。基于数据中台提供的数据资源,开发基于语音转写的水库数据智能搜索、水库档案、智能推荐等,验证示范性数据融合应用场景。
水库基础信息数据源主要有以下 5种:1)注册登记库。均是在大坝安全管理中心审批注册登记的水库,主要为水利部门管理的水库,缺少电力部门注册登记及其他部门管理的水库。2)上报统计库。主要以地方平时上报共享数据为主。3)水利一张图库。以 2011年水利普查成果为主,覆盖水利、电力、能源、农业、交通等部门,还包括近年来通过河长制、督查等系统补充增加的多座水库。4)水利督查库。主要是水利督查中产生的填报信息。5)实时水情库。主要是具有防洪任务的重点水库,以实时水情信息报送为主。水库数据治理的总体框架如图1所示。
图1 水库数据治理总体架构图
1.2 数据分层
基于数据中台整体逻辑架构及数据仓库方法论设计,构建如下 3 层水库基础数据资源体系:
1)数据基础层。主要汇聚不同数据来源的异构数据,批量同步到大数据平台内存储。基础层的数据是从原始数据源同步过来的数据,不做任何数据清洗,是最小粒度的数据。
2)数据明细层。根据水库基础信息进行清洗、融合后建立水库明细库,并对所有水库进行统一编码;根据河道测站、水情、汛限水位等数据进行质量控制后建立标准化水情库;依照水库督查结果,对被督查水库的基础信息进行纠正,通过水库统一编码将基础信息、水情数据、督查数据进行关联。数据明细层的数据从基础层清洗得来,同样是最小粒度的数据,且做了统一处理。
3)数据专题层。对二级支流流域进行统计分析,汇总流域内全体水库的总库容、总防洪库容、剩余防洪库容,形成流域防洪情势库,针对智能搜索需求处理形成搜索数据模型库,根据质量控制规则及评价形成水库数据质量分析库。专题层的数据根据业务需要,从明细层聚合而来。
整个数据分层治理过程通过数据治理平台辅助实现,集中的数据治理平台较之传统的数据处理方式有着许多技术优势。数据治理平台支持多种计算和存储引擎服务,包括大规模离线计算、开源大数据引擎 E-MapReduce、实时计算(如基于 Flink)、机器学习 PAI(Platform of Artificial Intelligence)、图计算和交互式分析服务等,并且支持用户自定义接入计算和存储服务。传统数据技术体系进行跨网传输时,通常需要配置多个任务才能完成 1 张表的数据同步、传输,且大多数产品仅支持离线数据同步。本研究搭建的数据治理平台采用数据直接上云的模式,可支持跨网络、网闸等复杂网络环境,实现离线、实时多源异构数据的一步式便捷接入,在服务器端配置 1个任务,即可跨多个网络环境完成 1 张表的同步,极大提升了数据管理及运维效率,同时,还可利用数据治理平台提供的数据计算引擎对数据进行分析处理。数据治理平台提供了统一的数据开发环境,可构建复杂的业务流程和调度依赖,提供开发环境与生产环境隔离的研发模式,按照策略进行多线程数据处理任务调度并对元数据进行统一管理。通过提供数据监控、质量控制、安全、服务等综合能力,实现对水库数据的综合治理及资产化管理。
1.3 数据生产
在水库数据治理项目中,数据开发和生产的主要流程如下:
1)将不同系统中的各类数据通过数据治理平台中的数据同步模块,汇聚在同一个数据资源池中。将详细记录水库相关信息的表进行算法汇总和去重后,生成新的水库数据明细表,并对每一个水库赋予编码。
2)在新的水库数据明细表的基础上,利用其他应用系统中的数据表,生成新的水库数据关联表。将 3 张与水情相关的时序数据库表进行标准化,生成重新关联的水情表,将水库数据与督查信息的 2 张表进行关联,生成重新关联的督查表;将水库信息进行优化,生成便于智能搜索使用的水库数据搜索模型表;以水库所在地级市行政区为评价口径,依据关键字段空置率、准确率等指标进行打分,生成水库数据质量评价表;根据标准化后的水情数据生成防洪形势表,以流域为维度生成流域防洪形势表。
3)将数据资产采用数据治理平台同步到云数据库中,为后续业务应用提供数据服务。整个数据的生产流程如图2所示。
图2 数据生产流程图
1.4 数据服务
水库数据服务提供快速将数据治理成果生成数据服务 API,同时将数据服务 API 快速注册到数据服务平台以便统一管理和发布的能力。数据服务平台与 API 网关一起提供安全稳定、低成本、易用的数据开放共享服务。本次水库数据治理工作的数据服务平台采用 Serverless 架构,只需关注 API 本身的查询逻辑,无需关心运行环境等基础设施。数据服务平台会自动提供计算资源,并支持弹性扩展。最后形成的数据服务 API 可考虑应用在如下场景:
1)水利数据资源池构建。水库数据服务 API 可为构建水利行业及特殊业务应用的水利数据资源提供接口,为实现水利数据资源的统一管理和服务提供便利。
2)水利工程运行管理。通过数据融合,接入水库工程基础信息,以及水库运行管理、水情、信用体系、督查等数据,对不同水利工程进行风险大数据分析预警。
3)防汛会商。基于实时水情数据进行语音交互式搜索,快速定位重点河段的超汛限水位水库,直接辅助防汛会商与决策。
4)业务数据推荐。根据业务人员过往数据使用情况,智能推荐与该人员相关和感兴趣的水库数据相关字段,让业务人员第一时间掌握与自己业务有关的水库信息。
2 水库数据治理项目成果分析
2.1 水库标签画像
基于数据治理平台提供的标签画像功能,围绕实体-关系-标签这 3个元素进行标签建模,主要从业务角度对数据进行组织管理,以概念方法表示,极大方便了业务人员对数据的理解和应用。水库数据是重要的水利基础数据,因此在多个业务应用系统中都建立了自己的水库信息数据库表。由于每个业务系统的应用侧重点不同,每个水库数据库表结构也不相同,其中包含着大量重复信息。本次水库数据治理项目构建了水库基础、督查和水情等信息相融合的数据资源池,可以突破原有数据壁垒,在水库标签画像中同时查看同一座水库的各项数据,其中:水库基础信息主要包括水库编码、工程规模、水库建成年月、工程所在地,总库容、兴利库容、主坝类型、主坝高、水库管理单位、设计洪水位等信息,水库督查信息主要包括督查日期、蓄水运行情况、安全评价等信息,水情信息主要指水库中实时的水位信息。本次水库数据治理工作从水库基础、督查、水情 3个信息角度为每座水库打上基础标签,标签示例如表1所示。
表1 水库标签示例
2.2 语音智能问答
水库数据治理工作打通了多个业务系统之间的数据,建立了适应于水库智能问答的数据模型,因此引入中文分词技术,将输入的搜索关键词进行自动切分,以关键词匹配的方式从水利数据仓库中查询后返回与搜索内容相关的信息。例如输入“长江上有多少座大一型水库?”“长沙市一共有多少座超汛水库?”“密云水库的水位是多少?”,便可通过多表关联立刻给出所需的答案。但在真实的防汛会商场景中,难以在搜索框输入文字而得到答案,可直接采取语音的方式询问。
考虑防汛会商的真实场景,利用基础深度学习的语义搜索引擎,构建智能语音搜索功能。首先通过抗噪声性能良好的语音识别技术将询问的语音转化为对应的文字,再通过文字进行搜索。这样的语音智能问答不需进行人工文字输入,便能满足真实防汛会商场景中的需求。
通过智能问答的方式可有效快速地把与水库相关的信息实时反馈给相关人员,语音智能搜索问答系统的开发利用了水库数据治理的成果,以及语音识别、自然语言处理等先进的人工智能技术,适应真实的会商场景,大大提高了重要数据获取的准确性和时效性。
2.3 数据标准建立
水库的基础数据多为人工填报,很多数据存在填报格式如日期格式、经纬度不统一的问题,给后续共享和利用带来了很大阻碍,为此建立数据标准。传统数据标准管理系统是一个为辅助数据标准的推广与实施,为相关业务分析人员提供业务标准的分析与浏览功能,为系统开发与维护人员方便获得技术标准而建立的平台,一般包括标准导入、维护及导出和模板管理等功能。技术人员虽然可浏览和分析标准,但无法直接约束数据开发,最终数据开发质量仍依赖具体开发人员对标准的运用及自身技术能力。
利用智能数据仓库的标准管理工作,通过管理标准数据字典和元素,定义了水库相关业务对象及业务对象属性的标准化数据表达方式,保证了业务人员、数据管理者和开发者对数据含义理解的一致性。定义好的标准元素与数据字典,可在系统中直接与数据模型关联,最终在数据开发平台按制定好的标准进行强、弱规则约束,减少了人为参与环节,保障了水库数据标准对水库数据模型的直接应用效果,有力推动了水库数据标准的直接落地。
2.4 数据质量控制
数据质量是数据发挥价值的基础条件,如何保证数据在产生、维护、服务过程中的质量及真实性是数据治理的核心问题之一。水库的基础数据存在许多质量问题,如各数据库中的水库数量和名称并不统一,再如水库数据中建成日期的格式不同,水库数据的经纬度填报错误,水库重要字段如坝高等由于漏填而存在缺失等。数据治理平台提供支持多种异构数据源的质量校验、通知、管理服务的一站式平台,以数据集为监控对象,对数据表进行监控,当离线数据发生变化时,数据质量管控模块会对数据进行自动校验,并阻塞生产链路,以避免问题数据污染扩散。
水利部信息中心与运行管理司及大坝安全管理中心一同开展了水库基础数据质量控制工作,通过多源数据比对、遥感影像核实、地方确认等方法核查全国水库总数量,以同一性认定、数据融合、名录核实为主要技术路线开展了水库数量核查工作,统一了水库名录并赋予统一编码,为进一步核实主要指标打下了基础。
为增加各省水利信息化部门对数据质量控制的主动性、积极性,水库数据治理工作根据接入数据源对数据进行质量控制,以准确性、及时性、一致性、唯一性、完整性、合规性 6个维度为评估标准,对各省水利信息化部门接入的水库数据源进行了排名,其中:数据的准确性,指数据记录与真实情况比较,是否存在错误;及时性,指数据代表的信息时效如何,数据更新是否及时,是否反映当下的实际情况;一致性,指数据库表中没有前后矛盾的信息;唯一性,指数据库中没有重复信息;完整性,指数据库表行、字段等是否出现缺失的情况;合规性,指数据库表中的字段是否符合先前定义的数据标准,如经纬度的格式是否按照规定提供。在对 6个维度进行综合评估打分后,可得出水库数据质量排名结果。
3 结语
水库数据治理摸索了水利行业数据治理的通用路径,采用了先进的数据治理技术手段,利用了现在较为流行的数据资源池、数据中台等建设思路,积累了一定的工作经验。主要工作总结如下:
1)数据资源构造与搭建。汇聚不同数据源的水库基础信息,形成统一的水库基础数据库。对水库进行编码,映射到多个相关业务系统,实现了水库数据实体和编码的统一。
2)数据智能融合与应用。依照基础和衍生标签,对特定水库群体进行水库画像。设置质量控制标准,对各省市水库数据质量进行评分。搭建水库数据融合应用,对融合后的数据进行基于自然语言处理的水库数据智能搜索,加载 ASR(语音转文本)技术,实现语音交互式搜索。根据不同角色设置,智能推荐水库信息。
3)数据资产管理与服务。从宏观到微观盘点水库数据资产,做到让数据管理者心中有数,通过可视化的方式了解数据的价值,让各级用户直观看懂数据、理解数据进而使用数据。
同时,在水库数据治理的实践中也发现以下一些问题:
1)由于不同业务系统对水库的定义不完全一致,有些业务系统认为是水库的对象,另外的业务系统未必认定为水库。
2)水库位置的核对也存在困难,尽管借助遥感影像进行比对,但仍有不少水库无法在影像上看到,只能联系当地水库责任人反复进行确认。
3)不同业务系统中的同一个水库并不一定同名,常常存在同音字的现象,这对统一实体设立了障碍,人工解决此问题工作量较大且容易出错,需引入自然语言处理进行核对比配。
水库基础数据治理探索了水利数据治理的方法和技术手段,为未来各类水利数据(如水资源、引调水、河湖、水利舆情等数据)的进一步治理提供了实践经验。新的信息技术手段可协助解决水利行业数据资源体系不完善、安全防护风险高、分析和支撑能力弱、管理制度和服务体系不健全等问题,对于打通水利行业内部数据孤岛,融合各类涉水数据,释放数据价值有着重要的促进作用。只有实现了水利数据的全面充分治理,才能让各级水利部门“用数据说话、用数据管理、用数据决策”,才能使实现智慧水利真正成为可能。因此,水利数据治理是提升水治理体系和能力现代化的必然要求,进一步加快水利大数据治理的步伐非常必要和迫切。水库基础数据治理作为水利数据治理的有效尝试,有着重要的实际意义。