基于图技术的管网数据质检算法及应用
2024-07-06郭剑桥张强杨鑫王宵王遥许彦
郭剑桥 张强 杨鑫 王宵 王遥 许彦
摘要:在智慧水务、管网攻坚战等项目的建设与运营中,管网数字化工作至关重要。当前管网数字化行业内的质检功能普遍是基于关系型数据库采用数学计算的方式进行判断,而基于图技术实现管网数字化质检的研究较少,且未有城市级实际应用。为此,介绍了一种基于图技术的城市排水管网质检方案,该方案从底层优化数据治理效率,提升系统整体响应速度,减少用户等待时间与服务器计算负荷。将该管网数据质检算法应用到六安市的真实数据中,应用效果表明该算法提高了管网质检的综合效率,应用场景广阔,可满足万km长度级管网秒级质检需求。
关键词:城市地下管网; 地下管线探测; 智慧水务; GIS; 数字化; 长江流域; 六安市
中图法分类号: TP399
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2024.S1.048
0引 言
近年来随着技术的提升,国家对于城市资产数字化的重视程度越来越高,其中地下管网是城市资产的关键组成部分[1]。提升管网数据质检能力,不仅能提升管网数字化成果数据质量、精准定位数据问题与类型,更是智慧城市、管网攻坚战等国家战略成功的关键。
国内外对排水管网GIS数据质检相关领域已有较为成熟的研究。美国数字制图数据标准委员会(NCDCDS)对数据质量做了规定[2];中国国家测绘局也制定了有关质量标准,论述了GIS 数据库开发项目的质量控制方法[3];国内外已建立基于文本关系型数据的管网质检信息化质量控制算法[4-5]。但仍存在功能分割、效率低下、与实际的工程应用关联性不强等问题。本文结合管网数字化一线与管理工作中的思考与实践[6],介绍了一种基于图技术的管网质检分析技术,融合图拓扑解析能力,通过社区算法[7-8]等,构建从数据规整化输入到数据仓库[9]及拓扑网络创建的毫秒级高级质检能力,丰富管网异常问题库[10],并将研究成果应用于长江流域城市地下管网实际数据中。该技术突破原有的关系型数据质检模式,对非结构型的管网复杂拓扑关系进行更好的存储、查询、分析,提高了管网质检的综合效率;通过节点、关系、向、权等灵活构建问题清洗与修复算法,扩大使用场景;形成一种真正可落地应用的海量管网数据高效质检功能,可提升管网数据准确度,进而满足现场巡检、分析等业务需要。
1管网文本数据至图数据的转换
1.1图数据的优势
相比传统关系型数据库,基于图结构的图数据库具有以下优势[11-12]:存储量大,图数据库能够以图的形式存储数十亿的节点和关系;存储灵活度更高,数据在图数据库中存储时不限于预定义的模型;可以实现数据在深度和广度上的恒定时间遍历,深度查询用时远优于传统关系型数据库[13]。其中,深度关系指两个节点间的连接数,如图1所示,由一条管道相连的节点A和节点B之间的深度为1,由两条管道相连的节点A和节点C之间的深度为2,以此类推。
由表1可知,关系型数据库的查询时间随着查询深度的增加会呈指数增加;而基于图的图数据库查询时间随着查询深度的增加呈线性增加,相同深度下的查询用时远优于关系型数据库。当需要对城市级海量管网数据进行多深度分析时,关系型数据库并不适用于存储和计算管网数据,图数据库对关系复杂且呈低结构化的数据要求与智慧城市业务更加契合。
1.2转换原理
(1) 对象概化。在图数据库中,将管网对象用节点和关系两种要素来进行区分[14],将管井、箅子、化粪池、排水口等点对象概化为节点来表示;将管道、管渠等线对象概化为关系来表示。每个关系都具有起点、终点和方向,其方向即为管网流向。
(2) 属性分类。将节点和关系的属性分为数值型数据和文本描述型数据[15]。数值型数据包括节点的坐标、高程等和关系的管径、管长、埋深、坡度等,用于后续设置阈值计算分析;文本描述型数据包括节点与关系的编号、类别、所属分区、所在街道等,用于后续设置条件分析。
(3) 标签种类。在图数据库中,将节点通过标准化的标签体系进行区分,将关系通过标准化的种类体系进行区分。比如对检修井节点添加“检修井”标签;对排水口节点添加“排水口”标签;对管道关系添加“管道”种类。由此现实中的城市排水管网在图数据库中被概化为由顶点(节点)和边(关系)组成的图,且其属性以键值对的形式存储在节点和关系之中,属性示例见图2。
数据准备完成后,本次研究选取Neo4j作为管网数据存储、分析的基础图数据库[16],通过转换脚本将传统关系型管网数据转换为图数据库管网数据,并可基于Cypher语言实现高效查询、检索、管理图数据库数据集[17]。
2图数据库质检修复技术
基于传统关系数据库的管网质检算法均可通过图数据库实现。本文选取相较传统关系数据库有显著优势的质检算法进行详细介绍。
2.1多深度重复节点质检修复
在该场景中两个或多个节点的横纵坐标偏差极小,在GIS中的表现为多个节点重合在一起,这种情况通常是由同一地点重复勘测或使用设计软件一点双号导致的。图数据库支持对于多深度重复节点进行质检与自动修复,以深度为5为例,重复节点所在的拓扑链路分为3类。
(1) 两个重复节点,一个位于深度大于5的链路上,而另一个位于深度小于5的链路上。清洗前后示例如图3所示,“重复点”处重叠有两个节点E和X,其中E节点的上下游分别只有一个节点,其上下游节点数小于5;而另一个节点X的上下游节点数大于5。数据修复方法为删除深度小于5的节点及其连接管线。
(2) 两个重复节点均位于深度大于5的链路上。“重复点”处重叠有两个节点E和X,两个重复节点的上下游节点数据均大于5,数据修复方法为将两个重复节点上下游深度为5以内的节点数进行对比,删除节点数少的重复节点,将其与管线的连接关系集成至另一个节点数大的重复节点上。
(3) 两个重复节点均位于深度小于5的链路上。第三类两个重复节点的上下游节点数据均小于5,数据修复方法为删除两个重复点所在链路的所有节点以及与节点连接的管道。
2.2外围框线点异常质检修复
在管网探测工作中,有时会出现普查人员将井室轮廓线、化粪池轮廓线等范围线错误地使用实际管线进行表示的情况[18]。这种外围框线点(3个点以上,多为4个点)并不是真实存在的管点、管线,且会导致数字化管网的拓扑关系与实际不一致,对数据质量影响较大,需要进行质检修复。
外围框线点数据修复时,分为两种情况:一种为外围框线点不与其他任何管线点有连接关系,只是孤立的一系列环状线,此种情况可以判定其为多余的范围线,修复方法为将其直接删除;另一种为外围框线点与其他管网有连接关系,此种情况一般由于普查人员将多余的范围线与实际点线搞混导致连接关系错误,修复方法为在外围框线点的几何中心处创建一个新的概化节点,将外围框线点的连接关系转移到所创建的概化节点上,删除外围框线点及其连接关系。
2.3多链路质检分析
在该场景中,两个直接相连的节点还有其他的连接关系,这种情况通常是由同一地点重复或者管线错误连接导致的。图数据库支持对于多深度重复链路进行质检与修复,以深度5为例,多链路情况分为3类。
(1) 不对流向进行限制,两个直接相连的节点还存在另一条或多条深度为2~5的连接关系。数据修复方法为只保留深度为1的连接链路,删掉其他链路上的节点及其连接管线。
(2) 对同向流向进行限制,两个直接相连的节点,还存在另一条或多条深度为2~5的连接关系,且其流向与直接相连的链路流向一致。数据修复方法为只保留深度为1的连接链路,删掉其他链路上的节点及其连接管线。
(3) 对逆向流向进行限制,两个直接相连的节点,还存在另一条或多条深度为2~5的连接关系,且其流向与直接相连的链路流向相反。此种情况下,可能为环状管线或其他形式,一般不会单独处理此类情况。
3工程应用实例
3.1项目概况
以六安市为例,介绍图数据库质检分析算法的应用情况。转换后,图数据库中共计管线267 770个,其中排水管257 558个,排水渠-明渠1 950个,排水渠-暗渠8 262个;共计管点289 406个,其中井类99 923个,一般管线点26 579个,排水口1 588个,箅子69 495个,立管42 883个,化粪池1 952个,闸门11个,阀门33个,排水泵站59个,调蓄池5个,污水处理厂8个,进水口847个,储水设施134个,其他特征附属物45 889个。项目数据见图4。
3.2实验环境配置
基于试点城市管网数据,对比PgSql关系型数据库的质检算法与Neo4j图数据库的质检算法。实验环境配置如表2所列。
3.3质检条件与分析结果
质检算法的运行效率及质量依赖于管点及管道属性数据的完整性[19],然而在应用城市实际的管网数据普查过程中,现场勘测条件的限制或普查人员的误填以及漏填等情况,导致关键属性数据存在缺失及错误[20]。以一般管线点为例,有492个管点的底高程数据缺失,进而导致与该管点相关的管点底高程质检、管点与连接管线高程质检、管点出入流落差过大质检、管线埋设坡度质检等无法顺利进行,最终会导致质检的结果存在误差。对于这一类数据,传统的质检算法通常会统一以数据缺失将该点作为缺陷待定数据进行返回[21],本研究提出的图数据技术除了标注待定外,还会根据其连接关系的相关数据及试点城市加权参数对缺失字段进行补充。
对于该城市26万个管点、25万条管线、3 000 km长管网的海量管网数据,使用Neo4j图数据库算法与PgSql关系型数据库进行质检,运行12个质检算法,共发现问题102 469个。基于传统关系型数据库的质检算法,往往几十km的管网数据质检就需要3~5 s,数量级达到一定程度后,甚至会导致服务器卡死,而图数据库质检算法由于数据存储结构灵活、对复杂拓扑关系分析能力强大,仅用时9.3 s即完成该城市管网数据的质检计算,并进行数据修改清洗与标定。质检速度情况对比见表3。
该城市共804条道路/地块,抽取约5%管网数据(41条道路)的质检结果进行比较。图数据算法的查全率、查准率均优于或等于关系型数据算法。选取第三方团队对数据进行外业复核抽检,抽检出的问题数作为现实中全部问题数;将两种算法得到的质检结果反馈给原普查单位进行人工核实,核对后的问题数作为内业质检真实问题数。通过查准率、查全率来评判算法的质检质量,其中查准率为质检真实问题数与算法质检问题总数的比例,查全率为质检真实问题数与全部问题数的比例。质检质量情况对比见表4。由表4可知,算法质检的结果部分少于全部问题数,这主要是由两个原因导致的:① 不同的阈值会导致不同的质检结果,尤其是人工普查时也存在主观性判断;② 某些数据缺少属性值,尤其是用于设置阈值的数值型属性,算法在运行时会自动判断为属性缺失,进而导致质检结果小于全部问题数。
4结 语
本文基于图架构对管网数据进行重构,并基于Neo4j数据库进行数据搭建与质检算法实现,搭建了通用化管网图数据库标准化映射路径及高效转换模式,并针对管点线数据的属性、深度、业务逻辑等制定数据质检规则和流程,基于六安市的管网数据治理业务的实际应用对算法进行了验证。相较于传统的文本以及地理空间的关系型数据库,本文介绍的方法从数据底层对质检算法进行提升,可以更高效地实现拓扑复杂、数据量大、多深度管网数据的查询与分析,提高质检效率与质量,有效降低问题定位与数据修改成本。
参考文献:
[1]徐昊旻,张强.长江大保护智慧水务实践[J].建设科技,2023(10):46-49.
[2]YOUCAI H,WENBAO L.Building the estimation model of digitizing error[J].Photogrammetric Engineering & Remote Sensing,1997,63(10):1203-1209.
[3]严玉瑶.城市管网空间数据质量检查系统设计与实现[D].北京:中国地质大学(北京),2012.
[4]陈琪.浅论城市排水管网GIS系统的数据质量控制[J].给水排水工程,2010,28(1):84-86.
[5]DEVILLERS,R,BEDARD Y,JEANSOULIN R.Multidimensional management of geospatial data quality information for its dynamic use within GIS[J].Journal of the American Society of Photogrammetry,2005(2):205-215
[6]秦立为.排水管网GIS系统数据质量评价与控制[D].上海:同济大学,2008.
[7]WAN Y,TAN X,SHU H.Finding and evaluating community structures in spatial networks[J].ISPRS International Journal of Geo-Information,2023,12(5):187.
[8]BAGHER Z,REZA M M,BEHROOZ M.Chaotic memetic algorithm and its application for detecting community structure in complex networks.[J].Chaos,2020,30(1):013125.
[9]王克龙,王玲,王平立,等.数据仓库中ETL技术的探讨与实践[J].计算机应用与软件,2005(11):32-33,80.
[10]董坤乾.城市供水管网GIS系统设计及数据质量评价[D].广州:华南理工大学,2018.
[11]刘宇宁,范冰冰.图数据库发展综述[J].计算机系统应用,2022,31(8):1-16.
[12]杨振,万为清.图数据库的研究和应用[J].电脑编程技巧与维护,2020(12):91-93.
[13]解春欣.大规模图数据库上的模式匹配[D].上海:复旦大学,2010.
[14]陈舒.关系数据库中图查询优化方法的研究[D].上海:上海交通大学,2023.
[15]崔阳.基于空间数据库的城市地下管网知识发现研究[D].北京:首都师范大学,2006.
[16]王红,张青青,蔡伟伟,等.基于Neo4j的领域本体存储方法研究[J].计算机应用研究,2017,34(8):2404-2407.
[17]李寒雪.基于Cypher的图数据库查询编译器实现与测试[D].成都:电子科技大学,2022.
[18]范冲.城市地下管线数据的质量控制探讨[J].四川测绘,2006,22(2):31-33.
[19]贺文莲.地质图空间数据库的数据质量保证措施[J].华北国土资源,2012,26(1):33-35.
[20]吴波.城市地下管网信息系统的设计与实现[D].西安:西北大学,2002.
[21]秦立为.排水管网GIS系统数据质量评价与控制[D].上海:同济大学,2008.
(编辑:郑 毅)