APP下载

数字孪生城市大数据平台数据流转安全模型研究

2023-01-05于忠臣顾家乐冯词童靳佑鼎应志军

信息安全研究 2023年1期
关键词:数据安全数字

张 帅 于忠臣 刘 勇 顾家乐 冯词童 杨 建 靳佑鼎 应志军

1(奇安信科技集团股份有限公司 北京 100044) 2(苏州工业园区服务外包职业学院 江苏苏州 215123)

随着智慧城市建设的逐步推进和持续运营,智慧城市建设对加快城市产业结构转型升级,对构建现代产业体系和经济社会全局发展产生了指引作用.根据我国《国民经济和社会发展第十四个五年规划和2035年远景目标纲要》,分级分类推进新型智慧城市继续成为落实数字化战略的重要抓手之一.新型智慧城市是建设数字中国、智慧社会的核心载体.

早在2016年,习近平总书记就提出新型智慧城市的概念.2020年3月,习近平总书记赴浙江考察时指出,通过大数据、云计算、人工智能等手段推进城市治理现代化,大城市也可以变得更“聪明”.从信息化到智能化再到智慧化,是建设智慧城市的必由之路,前景广阔.

通过对国际典型智慧城市进行研究与分析发现,近年来智慧城市建设尤其注重城市信息模型平台对智慧城市在数字孪生的支持作用.城市信息模型也正在被越来越多地应用于打通城市“信息烟囱”“数据孤岛”,实现智慧城市数据采集、共享和利用.

1 数字孪生城市数据流转安全背景

1.1 数字孪生城市大数据平台发展描述

数字孪生城市在城市信息模型之上集成了城市的全量大数据,包括动态数据和静态数据、政务数据和社会数据、历史数据和推演数据,这些多元异构数据统统作为实体的属性加载到城市信息模型之上.因此城市级的数据共享融合形成无所不包的城市大数据,为数据驱动的治理模式夯实基础是数字孪生城市成功的关键因素.当前各省市都在进行政务信息资源的共享整合,部分地区基本整合完毕,大部分地区还在整合重点领域的社会数据以及实时采集的物联网数据,融入城市大数据平台,为数字孪生城市的运行做好数据资源体系准备.

城市大数据平台通过对人工智能领域深度学习、自我优化技术的应用,可使城市从以往部门之间各自为战、治标不治本、被动迟缓的基层治理模式,转变为全域协同治理、问题智能响应、需求提前预判的模式,构建起高效智慧的城市运行规则.

1.2 城市大数据平台数据流转安全风险分析

城市大数据平台作为重要的关键信息基础设施,平台汇聚数字孪生城市的规划、建设、运营、感知等各类城市数据,通过数据的融合、分析及利用为数字孪生城市建设提供数据支撑,通过辅助决策系统实现规建管一体化,同时对外提供数据服务,支持各类智慧应用的建设与应用.在数据流转过程中,各类资源必将成为未来网络对抗的焦点,也是“网络战”的重点攻击目标.

对外提供数据服务是数字孪生城市大数据平台核心价值所在,在数据流动过程中,风险也常常伴随其中,诸如越权访问权限范围之外的数据、账号滥用访问敏感数据、敏感数据流动到本不该去的地方等.但凡发生数据安全事故就会造成严重损失和不良影响.存在数据安全风险主要有:

1) 数据敏感度与保障级别混乱.

数据分类分级既是数字孪生城市数据治理的基础,也是开展数据共享与开放的前提.我国相关法律法规也要求对不同安全级别的数据需采取不同的安全保护措施与手段[1].如果城市大数据平台中的数据未进行分类分级,则会按照政务数据默认敏感等级进行安全保护,从而造成以下问题:首先,进行安全防护工作需要投入更大量的人力物力财力;其次,未分类数据中敏感级别低于默认敏感级别的数据会被过度保护,存在安全资源过度投入,防护过度也会导致系统运作效率的降低;另外,被默认级别保护的数据中还将含有大量敏感级别高于默认级别的数据,从而出现高敏感数据保护不足的风险.

2) 数据全生命周期流转风险.

城市大数据平台数据一般会经历采集、传输、处理、存储、交换共享、应用等过程[2],若缺少全过程的联动分析就无法形成数据流动的整体态势,难以对当前数据安全状态进行整体掌握,也就无法为后续的数据安全决策提供有效支撑.

城市大数据平台数据流转过程中[3],数据流转过程、数据服务结果都会被城市大数据平台管控.在数据流转过程中会直接操作原始数据库,若脱离管控的操作被执行将导致数据被破坏.如果通过手动执行,手动执行的过程、结果不能同步给城市大数据平台,将导致数据在流转过程中脱离管控.

3) 城市大数据平台访问控制策略低效.

城市大数据平台的大数据资源池包括关系型数据库、大规模并行数据仓库以及分布式非结构化大数据,其中每类数据库均有自己独特的账号和权限体系.每类数据库对访问控制的粒度以及标准支持度不一致.假设当前需要进行字段级粒度的访问控制,而某些组件只能对表级粒度进行访问控制.因此,访问控制能力的差异必然会导致制定全局安全策略变得困难[4],全局策略制定困难成为统一访问控制机制的短板,而且城市大数据平台数据访问控制安全策略的优化依赖于对当前数据安全属性状态的掌握程度.过于宽松的数据访问权限极大地增加了数据泄露的可能性,城市大数据平台的特权账户权限过大且缺乏有效监管也是目前面临的重大安全问题.

4) 城市大数据共享交换环节泄露风险.

城市大数据平台的各个子系统还处在初期研发与部署过程中[5],各个软件版本在不断地迭代,功能在迅速增加,与其他平台的数据接口也在不停地调试过程中,对接平台的脚本开发完成后需要测试脚本的有效性、稳定性,开发测试人员须有数据库操作权限才能进行脚本测试,该权限会涉及城市大数据平台敏感数据,因此开发和测试环节存在敏感数据泄露的风险.

城市大数据平台有时需要提供批量数据给数据应用方,同一份数据也可能会同时提供给多个数据应用方.一旦发生数据泄露事件,并且泄露的数据是城市大数据平台曾经提供给多个数据应用方的情况下,泄露渠道可能是其中1个或多个数据应用方,也可能是城市大数据平台自身泄露,很难准确判断泄露途径,存在数据泄露不可追溯风险,难以归责.

1.3 城市大数据平台数据流转保障能力分析

针对数字孪生城市大数据平台存在的数据流转安全风险,城市大数据平台安全保障能力主要从数据流转安全、数据分类分级标记、数据生产要素安全3个安全能力出发,构建数字孪生城市大数据平台整体安全保障能力.

1) 数据分类分级标记能力.

城市大数据平台针对数据的不同类别和敏感级别实施不同的安全防护策略,施加不同的安全防护手段.对不同业务涉及的数据按照实际业务场景进行数据类别划分,按照数据属性的高低不同和泄露后造成的影响危害程度进行不同数据等级的划分.数据等级划分主要考虑影响对象、影响范围和影响程度.

城市大数据平台对结构化、非结构化、半结构化的数据按照内容属性、安全属性、签名属性、要素属性等不同视角进行标记,标记的方法包括基于元数据的标记技术、数据内容的标记技术、数据属性的标记等,为后续数据的分级分类存储、数据的检索、数据的隐私保护、数据追踪溯源和数据的权责分析提供依据.

2) 数据流转安全保障能力.

城市大数据平台依托云计算、物联网等新一代信息化技术,融合了新型智慧城市的地上地下3D的时空数据集群,接入实时感知信息,实现数据资源、服务资源智能组装[6]、按需服务、数据综合展现,提供强大的数据与功能共享环境,为全区各部门、各行业的第三方智慧应用系统提供时空信息的组织、管理、交换、展现、查询操作公共服务、数据服务和空间位置服务,支撑专题应用系统的建设.

立足于城市大数据平台数据汇聚与开放保障特点,以数据汇聚安全及数据共享交换安全为重点,需要从数据采集、传输、存储、处理、交换、销毁6个维度出发,构建数据流转安全保障能力.

3) 数据生产要素安全开放能力.

数据的采集、利用、存储、交易等一系列的行为正发生变化,新的客体、新的主体正在产生形成有价值的数据[7],而且数据流转过程中会再次产生有价值可挖掘的二次数据.城市大数据平台在完善平台数据权属界定、开放共享、交易流通等环节中,需要保障数据作为生产要素的可用性、机密性、完整性、不可否认性与可追溯性,以及在开放共享与交易流通过程中,交易数据的可审计性等.

2 城市大数据平台数据流转安全模型

数字孪生城市大数据平台采集与汇聚智慧城市建设和运行期各类数据,采用云计算、大数据、人工智能及3D仿真等技术,对数据进行汇聚、共享、应用和管理,通过城市大数据平台接口为各类智能应用提供数据服务.

针对城市大数据平台存在与多种网络形态(各种专网、物联网等)频繁交互、数据多源异构、跨平台交换、跨域共享、安全级别多样和安全属性变化等特点,主要解决城市大数据平台多源异构数据的跨网跨平台交换和共享安全.因此,本文主要研究城市大数据平台数据流转安全问题.

本文根据数据开放的风险程度,为防控城市大数据平台数据流转过程中所涉及的数据安全性问题,将依照国家主管单位数据安全要求,严格遵从科学合理的数据分类分级方法,对城市大数据平台数据划分为不同开放等级,并针对不同风险类别的数据设置差异化的流转安全体系[8].其中,受限开放的数据依法已经脱敏、脱密等技术处理,符合开放条件的,围绕“急需先行、成熟先上”的建设思路,处理好与数字孪生城市各应用平台的数据对接关系,全面支撑数字孪生城市建设和可持续运营.

针对数字孪生城市大数据平台数据多源异构、跨网跨平台共享交换等特点,本文提出城市大数据平台业务数据流转安全体系,围绕数据全生命周期,包括数据采集、数据传输、数据存储、数据处理、数据共享与交换、数据销毁6个阶段.结合城市大数据平台的数据聚合分析与开放服务的平台定位,安全关注点主要集中在数据处理与数据交换阶段,最终为数字孪生城市大数据平台数据流转提供全生命周期安全保障.

2.1 城市大数据平台数据流转安全框架

数字孪生城市大数据平台数据包括地理数据、地质数据、现状数据、规划数据、建设数据、运营数据等,数据来源涉及多个行业和单位,数据格式多种多样,且应用数据交换需求多样、系统权限体系复杂、跨域延伸不可控,依据城市大数据平台数据的可开放等级,分别从不同等级数据全生命周期角度构建数据安全流转体系,解决数据多源异构、跨网跨平台交换和共享的安全问题,如图1所示:

图1 城市大数据平台数据流转安全体系框架

针对数字孪生城市大数据平台,研究城市数据跨平台和跨业务流转的安全方法,梳理数据作为生产要素的保护要点,在数据标签、分类分级和访问控制等方面进行关键技术实践,支撑建设数据从采集、传输、存储、处理、交换到销毁的安全流转体系;以关键技术实践结合城市大数据平台建设现状及远期规划,打造数字孪生城市大数据平台数据跨域跨平台安全流转能力.

图2 城市大数据平台数据流转安全框架

由于在数据处理与交换的过程中,各个数据主体角色在城市大数据平台不同的数据流转阶段安全关注点不同,因此在数据生命周期安全保障的基础策略上,针对数字孪生城市数据流转安全体系定义了城市大数据平台数据流转周期安全治理策略,主要包括数据组织安全阶段、数据利用安全阶段、数据开放安全阶段和数据运维安全阶段.

2.2 城市大数据平台数据流转安全模型

针对城市大数据平台数据流转特点,定义数据流转安全模型包括数据安全流转周期、数据治理安全域、典型应用场景3个维度.

1) 数据安全流转周期.

依据城市大数据平台数据流转(如图2所示)过程中所涉及数据流转处理重点的不同,划分为数据组织安全、数据利用安全、数据开放安全与数据运维安全4个环节.

数据组织安全环节主要针对城市大数据平台处理与数据提供方交互的对源数据的一系列操作,为数据的共享与开放提供必要的前提处理;数据利用安全环节主要针对城市大数据平台的数据作共享与开放安全计算与分析处理;数据开放安全环节主要针对城市大数据平台与数据应用方交互的数据共享与开放服务安全保障;数据运维安全环节针对城市大数据平台整个数据共享与开放的过程中的平台运营保障处理.

2) 数据治理安全域.

依据城市大数据平台数据流转过程中涉及的数据治理重点,对数据进行不同的处理需要,划分为数据采集域、数据计算域、数据应用域[9]、数据运维域.数据采集域是对城市大数据平台的数据提供方的源数据作数据组织安全环节各种处理;数据计算域是对城市大数据平台各等级的数据作数据利用安全环节相关处理;数据应用域是城市大数据平台对数据应用方提供数据共享与开放相关的数据开放安全环节操作;数据运维域主要是针对城市大数据平台各级别数据的不同存储要求分等级存储,执行数据运维安全环节相关操作.

3) 典型应用场景.

依据数字孪生城市大数据平台数据流转安全模型如图3所示,在数据流转过程中涉及的数据应用场景,按照政务行业不同,包括智能交通、智能物流、智能城建、智能能源、智能水务、智能安保等.

图3 城市大数据平台数据流转安全模型

城市大数据平台数据提供方需在数据组织安全阶段提供元数据过程中采取相关安全保障措施,保障数据分类分级准确、数据来源真实可信、数据操作行为可管可控及数据质量稳定可靠.

城市大数据平台数据应用方需在数据开放安全阶段保障数据共享与开放过程中数据机密性、完整性、不可否认性、可追溯性以及敏感数据的安全保护等.

城市大数据平台数据运营方主要负责保证数据组织安全、数据利用安全、数据开放安全与数据运维安全过程中的数据机密性、完整性、可用性、可审计性、可追溯性与不可否认性等安全属性的不被破坏与用户的访问控制策略.

城市大数据平台数据监管方在数据组织安全、数据利用安全、数据开放安全与数据运维安全过程中确保数据安全属性能够及时有效监管与用户操作行为状态实时可控.

3 数据流转周期安全治理技术方案

数字孪生城市大数据平台数据流转安全治理周期,包括数据组织安全、数据利用安全、数据开放安全、数据运维安全4个环节,依据数据共享与开放的设计思路,采取以下数据安全技术措施,保障城市大数据平台数据流转安全:

3.1 数据组织安全技术

数字孪生城市大数据平台数据流转安全治理周期的数据组织安全环节[10],主要在数据采集域与数据提供方进行相关操作,包括数据质量管理、数据分类、数据分级、数据标签.

1) 数据质量管理.

数字孪生城市大数据平台规划汇聚各类数据,包括航拍影像、遥感遥测、3D倾斜摄影、BIM、人文历史、各类规划、物联网等数据.这些数据主要是由物联网平台、车联网平台、视频网平台,以及各个智能城市应用系统作为数据提供方提供到城市大数据平台,进入城市大数据平台需要先对各类数据作数据质量管理,对数据的来源、时空属性、安全属性、要素属性等作质量审核.

2) 数据分类.

针对数字孪生城市大数据平台数据,采用线分类法、面分类法和多维度相结合的方法,按专题、业务和行业3个维度进行分类,对于每个维度采用线分类法将其分为大类、中类和小类3级.对于每个业务大类,按线分类法划分中类.对于每个中类,按照线分类法划分小类,如表1所示:

表1 数字孪生城市大数据平台数据分类定义

3) 数据分级.

针对数字孪生城市大数据平台数据分类后的处理情况,对数据进行分级,依据数据的开放风险程度进行划分,从数据的影响对象、影响范围、影响程度、影响要素等因素定义分级,可以将城市大数据平台数据划分为核心、重要、一般3个等级,防止在数据共享与开放的过程中数据被非法获取、篡改、泄露或者不当利用.

① 影响对象:国家、行业、地区、个人等;

② 影响范围:国家安全、社会秩序、公共利益、组织权益、个人利益等;

③ 影响程度:严重、中等、轻微、无(一般指数据的完整性、可用性等安全属性遭到破坏后带来的影响大小);

④ 影响要素:严重、中等、轻微、无(指数据作为生产要素属性的权属、定价、交易与使用等属性遭到破坏后带来的影响大小).

根据数字孪生城市大数据平台数据的价值、内容敏感程度、影响不同,将数据等级分为3级.

Ⅰ级(一般)数据:可以直接向社会公众开放的数据,例如数字孪生城市某条街道的交通灯工作情况数据或者某政务大厅的工作服务情况数据.

Ⅱ级(重要)数据:安全要求比较高,在国家相关政务单位内部开放但不向社会直接公开的数据,如需向社会开放需要经过数据加工等技术处理,如数字孪生城市某段时间的城市水电气使用数据.

Ⅲ级(核心)数据:安全要求高,需要经过一定的技术手段脱敏处理或者密文检索,可以向国家相关政务单位内部开放的数据,如数字孪生城市某行政区域内的工程建设未来模型数据,其披露可能会对智能城市运营产生负面影响或危害国家安全.如需开放,不仅需要经过严格的技术手段加工处理,而且需要经过时效性的过渡要求,如数字孪生城市的军工相关驻地的3D倾斜数据,如表2所示.

4) 数据标签.

针对城市大数据平台的数据分类分级处理后,对所有数据进行数据标记,标记过程中主要从安全属性、业务属性、时空属性、主体权限与来源清单等维度,对数据添加全量标签,对数据作生产要素维度的标记.

表2 数字孪生城市大数据平台数据分级定义

3.2 数据利用安全技术

在城市大数据平台数据流转安全体系过程中,城市大数据平台数据安全治理周期的数据利用安全阶段,城市大数据平台的数据运营方在职责范围内采取相应数据安全技术措施保障数据利用安全阶段的数据安全,具体包括数据脱敏、数据正当使用、数据分析安全、密文数据检索、密文集合操作、数据要素脱敏处理、数据匿名化技术、差分隐私、同态加密等,下面对差分隐私的数据利用技术进行详细研究说明:

差分隐私化技术具有严格的数学模型,无需先验知识的假设,安全性级别可量化可证明, 这项技术可以确保数据库插入或删除1条记录不会对查询或统计结果造成显著影响,数学化描述如下:

D和D′分别为相邻的数据集(差别只有1条记录),f(·)为某种DP算法,它对于任意的输出C,2个数据集输出的概率几乎接近(小于eε),称为满足ε隐私.如何实现这个目标呢,一般来说,通过在查询结果加入噪声(如Laplace噪声),使得查询结果在一定范围内失真,并且保持2个相邻数据库概率分布几乎相同.那么DP方法可以抵抗差分攻击引起的隐私泄露.利用该技术方案设计,即使攻击者拥有一定背景知识(先验知识),攻击者查询公开数据库只能获得全局统计信息(可能存在一定误差),无法精确到某个具体的记录(自然人的记录).

3.3 数据开放安全技术

在城市大数据平台数据流转安全体系过程中,城市大数据平台数据安全治理周期的数据开放安全阶段,城市大数据平台的数据运营方与数据应用方应在各自职责范围内采取相应数据安全技术措施保障数据开放安全阶段的数据安全,具体包括资源目录管理、数据溯源管理、数据共享安全、数据接口安全、数据发布安全、要素可用性管理.

3.4 数据运维安全技术

在城市大数据平台数据流转安全体系过程中,城市大数据平台数据安全治理周期的数据运维安全阶段,城市大数据平台的数据运营方与数据提供方和数据应用方在不同城市大数据平台数据安全流转周期,在各自职责范围内采取相应数据安全技术措施保障数据运维安全阶段的数据安全,具体包括元数据管理、数据供应链管理、逻辑存储安全、数据备份和恢复、数据传输加密、数据存储加密、数据导入导出、授权管理、访问控制、应急处置、安全审计、态势感知、预警监测、风险评估;数据要素身份鉴别、要素权限管理、交易信息保密管理、数据要素追溯管理、要素交易不可抵赖性管理、交易可审计性管理.

本文提出了一种综合性的数据溯源与安全分析运维技术研究技术方案,整体方案如图4所示.

图4 数据溯源与安全分析框架

整个技术方案的核心包括:

1) 提出了点阵暗水印数据溯源技术,将嵌入信息的点阵数据分布隐藏添加到载体,结合自主研发的深度学习的溯源算法,通过分类模型识别添加了水印点阵的目标数据得到水印点阵,再由水印点阵还原数据源信息.

2) 构建融合句义信息的事件关系强度溯源拓扑图模型,将孤立分散事件进行可度量形式关联,并通过事件关系强度图直观展示事件间关系,准确定位核心事件,从任意节点均可溯源到威胁信息,通过数据资产流转过程图绘制发现完整的数据泄露路径.

基于多标签分类数据分析优化模型,对百亿级别数据访问日志、行为记录日志、网络异常流量、数字水印信息多源数据进行分类与融合计算,结合预定义阈值输入,实时进行各维度、融合下异常值识别,实现了多维度数据融合安全分析,极大限度地扩展了数据安全分析的视角.

数据作为新型生产要素,只有流动、分享、利用与开放才能创造价值.《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)提出,加快培育数据要素市场,推进政府数据开放共享,提升社会数据资源价值,加强数据资源整合和安全保护.需要积极探索数据治理规则,要对数据实行分类分级治理,界定数据公开共享范畴,包括哪些是敏感数据,哪些是可内部交换数据,哪些是可开放数据,哪些是可交易数据等.

4 结论与展望

当前,城市大数据平台尚处于发展初期,以城市大数据平台为核心的数字孪生城市建设正形成城市级的创新平台,带动巨大的技术和产业资源,成为数字经济的重要方向.

4.1 数据是重要生产要素

2020年4月,《意见》对外公布,作为中央第1份关于要素市场化配置的文件,数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一,体现了互联网大数据时代的新特征.数据要素的高效配置是推动数字经济发展的关键一环.同时,大数据在智慧城市治理中如交通、物流、城建、能源、水务等方面也发挥着重要作用.

数据作为新型生产要素,只有流动、分享、利用与开放才能创造价值.《意见》明确,加快培育数据要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护.需要积极探索数据治理规则,要对数据实行分类分级治理,界定数据公开共享范畴.

4.2 数据安全重中之重

在2021年9月施行的《中华人民共和国数据安全法》,也重点关注确立数据分级分类管理以及风险评估、监测预警和应急处置等数据安全管理各项基本制度;建立保障政务数据安全和推动政务数据开放的制度措施.城市大数据平台是数字孪生城市的关键信息基础设施,一旦系统平台被攻破或数据泄露,将引发重大城市安全事故.数据利用和保护是一项复杂的社会系统工程,需在加强数字孪生城市大数据平台数据安全管理的同时,鼓励合规应用、共享与开放,促进数字经济发展,构筑自主可控的数字孪生城市网络安全环境.

本文研究目标是设计数字孪生城市大数据平台流转安全模型,通过构建数字孪生城市大数据平台数据在采集、传输、存储、处理、交换与共享、销毁全生命周期中数据流转的安全体系,为数字孪生城市级数据开放服务能力提供有效举措;从而形成数字孪生城市大数据平台整体安全保障能力,保障构建数字孪生城市透明的全量数据资源目录和数据资源开放共享体系.

猜你喜欢

数据安全数字
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
数字
答数字
大数据云计算环境下的数据安全
数字看G20
云环境中数据安全去重研究进展
成双成对
大数据安全搜索与共享
健全大数据安全保障体系研究