APP下载

一种面向超大城市治理的数据高效跨域流通技术框架

2023-11-08贾晓丰高嵩周琰薛钦亮范举

数据与计算发展前沿 2023年5期
关键词:跨域证照调度

贾晓丰,高嵩,周琰,薛钦亮,范举

1.北京市大数据中心,数据管理部,北京 100101

2.中国人民大学,信息学院,北京 100872

3.中国人民大学,数据工程与知识工程教育部重点实验室,北京 100872

引 言

随着全球城市治理向数字化、精准化、智能化发展,数据的跨域流通成为城市治理中亟待突破的重大课题。近年来,我国围绕数据要素流通进行了一系列战略布局,2021年3月,《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中提出构建“城市数据资源体系”;2022年12月,《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》中明确要求“建立数据跨域流通体系,增强数据的可用、可信、可流通、可追溯水平”;2023 年2 月,党中央、国务院在《数字中国建设整体布局规划》中明确将“数据资源体系”作为数字中国建设两大基础之一。如何充分发挥数据作为生产要素的基础性和活跃性是当前发展阶段的焦点,研究数据跨域流通的技术体系是促进数据要素高效配置、推动治理体系高效协同的关键环节和重要方向,对超大城市治理具有重要意义。

当前,全球部分超大城市已具备全域数据基础,但作为一个复杂系统,超大城市具有高维全域性、动态复杂性、快速成长性,在城市级的尺度上,单点的效率提升与整体的效率提升在一定程度上是互斥的,这就造成起步越早、整合越强、应用越好的领域,反而成为城市系统中越庞大、越牢固、越独立的“孤岛”。虽然消除“孤岛”已推动了近20 年,但如何在保护数据安全与隐私的情况下实现数据安全、高效的跨域流通依然是制约城市复杂系统运行和发展的瓶颈问题[1]。尤其是在超大城市这一复杂场景中,数据呈现出跨领域、跨层级、跨主体等显著“跨域”特征,给数据资源体系构建及应用生态带来了极大的挑战。

基于以上背景,开展数据高效跨域流通技术研究,多场景、多维度解决超大城市治理中的数据发现、表示、获取及利用问题,推动数据高效跨域流通。

1 现状和问题

1.1 技术现状

超大城市治理问题需要复杂的技术体系来支撑,其中起到关键作用的是数据标识技术、数据跨域调度技术和数据隐私保护技术。

数据标识方面,传统的数据标识多借助人工进行标识,通过利用人的领域知识让数据的可用性得到提升。网络技术兴起后,基于众包的数据标识系统[2]使得在网络广域上高效、大量利用人工知识进行数据标注成为可能。但是基于众包的数据标识系统面临着标注成本高、耗费时间长、标注质量不高等问题[3]。以深度神经网络[4]为代表的新一代人工智能兴起后,基于深度模型的数据自动标识使数据标识问题有了新范式。基于人工智能的数据标识系统可以有效地处理大量、多样的数据并进行标注,且可以在多个标注上达到较好效果[5]。但是目前的数据标识技术更多集中于对单域单一来源数据进行数据标识,而将这一技术简单重复地应用于跨域多数据来源的数据时,其无法有效挖掘和生成数据间关系。本文采用基于目录生成的分布式标识技术,通过将跨领域、跨机构、跨层级、跨系统的单个数据采集单元重构为城市复杂系统中的一个局部执行节点,实现有效的数据跨域统一标识。

数据跨域调度方面,数据的物理运输一直是最安全、最可靠、最不可替代的方式之一,但是其成本过高且不能利用网络等现代基础设施。随着数据清洗、匹配、对齐等技术的发展,跨域数据利用障碍逐步消除。跨域数据调度技术在数据中心网络和卫星网络等场景中得到了广泛研究[6-7],但是这些研究大多集中于高效调度。随着数据隐私保护成为越来越重要的特性,为了增强数据跨域调度的安全性、可控性、可溯源性,以多方安全计算[8]、区块链技术[9]等技术为代表的一系列技术在数据跨域调度方面得到了广泛应用。但是,以多方安全计算为代表的密码学技术所带来的额外计算开销是不可忽视且严重影响系统性能的[10],且目前的数据跨域系统多解决单一的数据跨域调度问题,缺乏整合,无法满足超大城市治理场景下对数据调度的跨域、高效、安全的要求,跨域分发和传输性能不足。本文通过多粒度跨域数据的隐性关系发现的生成,有效解决了数据跨域调度过程中多粒度的跨域数据与隐性关系发现之间的矛盾。

数据隐私保护方面,差分隐私[11]等技术通过在数据上添加随机扰动解决数据在发布和联合训练过程中的隐私泄露风险,而多方安全计算、零知识证明[12]等技术则在数据跨域流动过程中保护数据所有者和计算方的隐私。但是当前数据跨域保护技术普遍面临效率不高的问题,本文采用基于算法切片的安全协同计算技术,通过解决分布式、多粒度异构敏感数据的动态耦合问题,建立了针对性的分布式计算框架提高了隐私协同计算在超大城市跨域数据治理场景中的效率。

1.2 关键问题

超大城市治理是面向城市整体的系统性工程,数据呈现出跨领域、跨层级、跨主体等显著“跨域”特征,其数据流通包含诸多主体,涉及企业、社区、楼宇、桥梁、道路等多种静态要素,人员流动、车辆行驶等动态要素,以及人-企-物交互等关系要素;其还具有诸多显著特征,包括复杂性、不确定性、多样性等一般复杂系统的典型特征,以及实时性、成长性、快速性、交互性等超大城市治理的重要特征。加之数据的行业壁垒及隐私性和安全性要求使得领域内部统筹易、领域之间打通难,现有领域级的方法论和技术架构放大到城市级后不再适用。超大城市复杂系统下的数据治理难题主要体现在以下三方面:

(1)数源多变,现有技术体系难以实现对数据的标识。城市复杂系统拥有庞大、未知的数据源,城市多模态数据具有特征稀疏性和缺失性,无法实现对多数据源的完整、准确、自动识别,缺乏数据标识对数据跨域流通造成严重影响。

(2)数据分散,现有技术体系难以实现对跨域主体的分布管控。城市复杂系统是一个具有“全域性”的物理噪声空间,对于千万级人口、百万级企业、千万级物体的大型城市存在上万类数据结构、万亿级结构数据和ZB 级半/非结构数据,由于数据及其载体物理上分散、技术上多样,复杂场景下多源异构数据存在数据找不准、定位慢等问题。

(3)场景复杂,现有技术体系难以实现对多方数据的动态耦合。大量城市级复杂场景需要多方联合建模,并对供方数据和需方算法进行“双向隐匿”。这种对数据隐私敏感的特性导致在城市级数据流通中能够真正用于场景计算的数据源匮乏、协同效率低下。

上述三方面挑战给数据高效跨域流通带来了3个主要矛盾:一是多模态的跨域数据与统一的语义表示之间的矛盾;二是多粒度的跨域数据与隐性关系发现之间的矛盾;三是多尺度的跨域数据与动态的场景泛化之间的矛盾。这三方面矛盾给面向超大城市的数据治理体系提出了新的技术难题,其核心挑战是复杂场景自适应的跨域数据语义表示、关系发现和协同计算的科学问题。

2 总体技术框架

为了解决上述矛盾,超大城市复杂系统下的数据跨域流通重点解决3个方面:一是通过一套“链码”,实现对数字世界中大规模、多模态数据的统一语义标识(图1 左侧);二是通过一套“城市码”,实现对物理世界中全要素、多模态场景的关系发现(图1右侧);三是通过两套码之间的动态复杂关系映射,实现对超大城市复杂系统下分布式数据的协同计算(图1中部)。

图1 面向超大城市治理的数据跨域流通概览Fig.1 Overview of cross-domain data circulation for mega city governance

为实现上述过程,本文采用“联邦”的分布式架构,建立数据高效跨域流通的技术体系,其自左向右分为三层(总体框架见图2):

图2 数据跨域流通的技术框架Fig.2 Technical framework for cross-domain data circulation

(1)场景层:对应业务目录(语义索引),是数据跨域流通的需求层,从场景出发实现统一语义标识能力后将数据的语义索引传递至控制层,同时接收控制层反馈的结果信息。

(2)控制层:对应数据目录(结构索引),是数据跨域流通的核心层,主要通过不同的计算、编码、路由、访问等合约规则,在数据结构索引基础上增加具体的地址、权限、钥匙等关键信息后将其传递至数据层,实现数据的跨域调度能力。

(3)数据层:对应库表目录(物理索引),是数据跨域流通的执行层,主要提供数据的安全协同计算能力,并将数源和调度行为回传给控制层进行数据存证,提供数据溯源保证。

上述技术框架主要涉及3 个方面的关键技术:一是基于目录生成的分布式标识技术,解决大规模、多模态数据标识难的问题,实现噪声空间下多源数据的完整、准确、自动识别,本质上是多模态跨域数据的统一语义表示的生成。二是基于数据路由的多主体跨域调度技术,解决城市级数据“岛化运行”和“统一管控”之间的矛盾问题,实现多源分散数据的跨域调度,本质上是多粒度跨域数据的隐性关系发现的生成。三是基于算法切片的安全协同计算技术,解决复杂场景下多方数据动态耦合难的问题,实现生产环境下隐私数据的“可用”与多态场景的“可控”,本质上是多尺度跨域数据的协同计算。

3 关键技术

3.1 基于目录生成的分布式标识

传统的数据标识系统大多基于人工标识方法或者基于人工智能方法,但是这种方法在分布式、多副本环境下存在一定问题。在城市复杂系统中多模态、多拷贝、主体表征不一的数据上使用传统方法具有一定障碍。为了解决这样的问题,本文在分布式应用数据标识系统的情况下增加了数据标识的链码控制层,通过链码实现在分布标识的过程中进行协同处理、主体对齐等功能。同时,传统分布式标识系统在跨域环境中应用时无法有效保护参与各方的隐私,数据对齐和联合标识过程中存在隐私泄露风险。本文在联合标识过程中使用安全聚合计算算子对来自各方的数据进行处理,保证参与各方的隐私。

针对城市复杂系统中多模态数据的特征稀疏性和易缺失性,在传统数据探针侦听、采集、存储、比对等简单功能的基础上,本文增加了针对多模态数据的特征识别和协同过滤等功能,提出基于目录生成的分布式标识技术。该技术将跨领域、跨机构、跨层级、跨系统的单个数据采集单元重构为城市复杂系统中的一个局部执行节点,在局部执行节点上,探针可以对多模态数据进行来源识别和标识。在统一的链码控制下,探针在局部执行节点依次执行,一个统一的聚合器将返回结果进行聚合分析,从而实现数据的自主授权、标识、传输和计算,确保城市复杂系统中多数据源识别的“完整性”“准确性”和“自动化”。如图3,该技术在收到训练/分析请求后,将请求送到链码控制单元,链码控制单元对请求完成分析后,分发任务到局部执行节点,局部执行节点通过数据探针对数据源进行处理和分析,然后通过安全多方计算算法聚合后将训练结果返回到用户。

基于数据探针的多模态数据感知技术,分为探测识别、数据转换、数据匹配、生成、校正5 个步骤。通过数据探针,该技术实现了噪声环境下库表、文本、语音、图像、视频等多源异构分布式数据源的灵活、快速、无侵入式探测和识别;通过针对不同任务的数据转换和数据映射,实现从库表目录到数据目录(编码、元数据、地址、密钥和访问规则)的自动数据转换,通过基于对加权用户的协同过滤、相似度计算等技术,为不同权限、不同需求的用户进行数据匹配和目录生成,并基于此实时构建一套自适应数据字典,实现场景适配的实时迭代校正(见图4)。

图4 基于特征识别的目录生成与校正Fig.4 Directory Generation and Correction Based on Feature Recognition

依据上述技术设计的跨域流通体系,通过数据探针对数据通道中的数据进行7×24小时不间断探测识别(生成目录示例见表1)。

表1 生成目录示例Table 1 Generated Directories Example

通过对北京市3,000多个异构系统的探测识别,直接匹配数据目录超过25万条,探针探测数据效率达5,000 万行/s,与传统人工为主的编目方式相比,目录生成效率提升120%、人力成本降低60%,确保了城市复杂系统中多数据源识别的“完整性”、“准确性”和“自动化”(见表2)。

表2 人机语境转换效果比对Table 2 Comparison of the effects of human based and machine based context conversion methods

3.2 基于数据路由的多主体跨域调度

大规模多模态数据智能调度是支撑复杂噪声空间场景应用的关键。传统的数据调度系统在固定的数据字典和场景中运行,当场景发生变化时无法实现算法的动态优化。本文通过对场景的动态适应,通过自动使用不同的数据路由方式实现高效多主体跨域调度。

本文针对复杂场景下数据找不准、定位慢等问题,提出了基于数据路由的多主体跨域调度技术,通过数据路由匹配不同共识协议、技术架构,进行自动数据寻址和最优路径选择的智能调度,解决多源异构的数据的自动寻址和跨域调度的问题。在“场景-控制-传输”统一链码管控下,多主体跨域调度技术基于事件请求自动对数据的编码、地址、权限、规则等操作指令进行调度,通过数据路由合约寻址映射到多源异构数据源,通过动态最优函数平衡时间、成本、带宽及算力资源等各项开销,以最小的开销完成匹配数据的自动抽取和封装。如图5所示,针对不同链道技术体系之间的不兼容、时延高等问题,该技术从共识互认和数据互通两个层面隔离底层逻辑,简化调度和控制过程,实现不同链上节点之间的高效跨域调度,从而解决复杂噪声场景下多源异构数据的自动“寻址映射”和“抽取控制”问题。

为了在复杂场景下支持多主体数据调度,该技术使用区块链和智能合约技术进行数据调度。在过往实践中,鉴于联盟链相对公有链可以选择更强一致性的共识算法以提高跨链安全性,同时联盟链也拥有更高的可监管度,进一步增强了跨链安全性,因而大多采用中继链和哈希锁定实现跨链传输,其实质是多次共识过程。为了解决过往实践中的效率问题,本文通过智能路由技术,采用Kademlia-DHT[13]等技术,可以实现一次共识三次路由(三层目录结构),因而提升了路由效率跨链分发与传输性能。

依据上述技术实现的跨域流通可以通过跨域调度控制模块实现数据寻址映射、匹配控制,驱动数据流通控制模块完成数据转换调度。与传统数据流通技术相比,该技术方式跨域分发与传输性能提升180%。

3.3 基于算法切片的安全协同计算

针对城市复杂系统中场景多方多级异构数据协同控制难、敏感数据无法高效联合计算等难题,传统技术大多是从数据处理的层面解决,如多方安全计算[14]、安全联邦学习和差分隐私等[15]。然而,这些技术在应用于具有复杂场景的分布式环境时,单个技术在不同场景的简单复用会带来较大的重复加密负担,而且,由于跨域分布式环境存在设备异质性,数据分布和算力分布不均衡,简单地将各个参与节点一视同仁地对待会降低计算效率。本文增加联邦控制节点,通过对算法进行分片处理使系统在进行多场景、多计算任务时能通过场景逻辑的联邦规则更好地优化计算过程。同时,通过联邦调度的算力动态分配,通过考虑设备异质性的方式提升了系统效率。

本文提出一种基于算法切片和控制因子的联邦计算架构,在链码控制下,使用了多方计算等技术,对不同数据源上的算法模型分别训练和推理,用分片线性模型或局部特征来拟合多维数据源的非线性分类,从而实现异构系统、异构数据的通信。通过算法切片,将事件的计算规则“片段”带码分发到不同数据源进行分布式计算;计算结果“片段”增加控制因子后带码回传,实现跨主体之间的协同建模。基于算法切片的安全协同计算技术,解决了复杂场景中分布式、多粒度异构敏感数据的动态耦合问题,实现了生产环境下的隐私数据“可用”与多态场景“可控”。如图6,在场景驱动下,联邦控制单元在联邦协议和联邦规则的控制下,对计算任务进行算法分片后通过算法流分片传输到各个计算单元,然后计算单元将计算的结果通过明文或密文方式携带上控制因子后返回到联邦控制单元,联邦控制单元对计算结果进行协同建模。这一调度过程受到算力动态分配单元的智能调度以达到分布式计算的高效性。协同计算过程中,链码确保了多主体之间的“统一性”,分片确保了对入参及回传结果的“隐匿性”,控制因子确保了应用场景的“可控性”。

图6 基于算法切片的联邦计算技术架构Fig.6 Federated computing technical framework based on algorithm slicing

本技术通过高效隐私计算协议和无需大量预计算的计算引擎,支持多模态数据结构和实数运算能力,确保了敏感数据计算的“可用性”;通过乘法、向量等基础运算在一轮通信内的低时延完成,并支持亿级数据的多方联合建模和隐匿查询,确保了敏感数据计算的“高效性”。

4 在超大城市治理中的应用

基于数据跨域流通的技术架构,北京市构建了多层级、多粒度的目录链技术体系,实现了对数千个分散系统、上万类异质结构、千亿级实时数据的跨域管控,支撑了一系列复杂场景应用。(1)纵向层面,跨管理域打通了“市-区-街”三级组织,并进一步延伸至社区的基层治理单元,实现数据下沉和反馈闭环。(2)横向层面,跨应用域打通了交通、金融、医疗、教育、城市运行、公共服务等数十个重要领域,并以“数据专区”的方式实现了政府部门和社会机构之间的数据融合共用。(3)交叉层面,跨技术域打通了不同网络、系统、存储、标准之间的数据孤岛,实现了多源异质数据的统一标识、动态授权管控和安全协同计算。

下面,以电子证照的跨场景应用和12345 的智能派单为例,分别对数据跨应用域和跨管理域的流通进行分析。

4.1 电子证照的跨场景应用

传统证照数据库在支撑跨场景应用时存在数据不全不准、更新滞后、授权困难、核验困难等痛点问题。针对当前个人、法人办事过程中对证照信息的需求,利用目录链的标识和跨域调度能力,在集中式证照数据库的基础上快速架构“生成”了一条证照数据链,实现“真人”“真证”“真事”的验证、发证、管证等电子证照全链条授权使用模式。

基于目录链的分布式标识功能对全市发证部门的证照数据进行确源确权,对各证照数据跨域调度构建证照数据链。以目录链动态为“控”,以数据链为“用”,推动数据跨管理域和跨应用域的授权流通。流通过程中,通过对不同来源的证照数据进行分片计算、协同建模,保证了场景应用的隐私安全。

证照信息的跨场景应用可以解决以下问题(见图7):

图7 电子证照跨场景使用Fig.7 Cross scenario use of electronic licenses

(1)防止证照数据遭窃取或篡改。通过证照数据链提供安全可信的环境,将发证机关发放的证照特征值(数据元、照面信息、证照数据)哈希上链,保证证照信息的真实有效。

(2)用户使用证照数据的便捷和安全。个人和法人办事时,经过办事人实名认证授权,由目录链进行统一的权限控制和数据控制,由证照数据链进行电子证照应用的数据授权、跨域互认,保证用户使用证照数据的便捷性,同时防止第三方程序留存用户证照数据,确保隐私和安全。

(3)证照数据使用行为的全程可溯。通过证照数据授权和调用日志的实时回写实现。

通过链上标识和分级授权,支撑40 余类电子证照向30 多个不同场景提供了6,500 万次数据共享。

4.2 市民服务热线的智能派单

市民服务热线12345 整合了各级政府部门的便民服务,对市民的咨询和投诉问题进行实时接收和按责转办。传统情况下,该热线为人工接单、人工派单,即配置数百个人工坐席接听市民电话,根据反映的问题转派至相应的部门进行处理。近年来,随着人工智能技术的发展,接单方式已逐步由人工接单替换为基于语音识别的机器接单,但派单方式依然由人工处理,办理时效依赖于接线人员的派单速度和准确性。

由于问题本身往往具有模糊性,在实际人工派单过程中存在较大主观因素,不同人员派单的部门存在较大偏差。比如:反映“某区域河水有异味”,其中关键词为“河水”和“异味”。与“河水”相关的政府机构涉及水务部门、市政部门;与“异味”相关的政府机构涉及环保部门;如果“异味”的源头由排污引起,则进一步涉及执法部门;同时从区域管理的角度,涉及属地所在的区、街道和社区。

目录链通过基于语义理解的目录生成,在“机构-职责-系统-数据”之间建立起映射关系,实现数据的确源;同时,通过链上知识图谱可以构建派单模型,通过历史派单记录训练,并根据每次派单的反馈进行不断调优。

本文技术通过对12345 接诉问题的快速识别和精准定位,驱动了数据在民众和各级政府机构之间的跨部门、跨层级流通,提高了派单的准确性,减少了各责任主体之间的推诿扯皮,提升了问题响应和处置的时效性。

5 总结与展望

本文聚焦超大城市治理的数据跨域流通问题,为跨领域、跨层级、跨主体的数据标识、跨域调度和协同计算提供了一种解决思路,同时为我国城市级数据资源体系的构建提供了有意义的实践探索。随着GPT引发的一系列行业变革,现有的技术体系、架构和数据组织逻辑也发生了重大改变[16]。本文的构想是探索利用大模型的生成能力解决3个技术问题,形成“3CGPT”的技术架构,分别为:CatalogGPT(面向索引的语义生成)、ConnectionGPT(面向知识的关系生成)、CityGPT(面向场景的认知生成),希望将其作为未来工作进行系统研究,同时也将围绕跨域数据的语义表示等理论方法、隐私保护体系的通用性等关键技术及领域知识图谱的构建优化等应用实践开展进一步研究,推动新一代数据治理框架和超大城市数据流通模式的建立。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢

跨域证照调度
跨域异构体系对抗联合仿真试验平台
基于多标签协同学习的跨域行人重识别
新建核电站项目前期的证照申请与核安全监管浅析
交通运输部海事局公布第二批可在线办理的电子证照清单
为群众办实事,崂山区打出“跨域通办”组合拳
G-SRv6 Policy在跨域端到端组网中的应用
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
一种基于负载均衡的Kubernetes调度改进算法
电子证照系列基础标准
虚拟机实时迁移调度算法