一种基于区块链的数据安全监管模型研究*
2023-09-07董贵山
薛 锋,董贵山,陈 莉,白 健
(中国电子科技集团公司第三十研究所,四川 成都 610041)
0 引 言
数据作为数字经济时代基础性、战略性资源和重要的生产要素,正在加速成为全球经济增长的新动力、新引擎。针对日益严峻的数据安全问题,世界各国都在推进数据安全工作。国际方面,欧盟在2018年5月发布了《通用数据保护条例》(General Data Protection Regulation,GDPR),美国在2020年10月发布了《国防部数据战略》,其中GDPR已成为众多国家和地区制定数据保护条例的重要参考;国内方面,2021年6月,《中华人民共和国数据安全法》正式公布,该法强调了数据安全是数字中国重要战略举措的根本保障。
工业互联网作为新基建的7大领域之一,已成为数字经济发展的重要方向,但目前仍然缺乏满足工业需求的安全技术体系和管理体系,互联网安全风险与工业安全风险相互交织叠加,设备安全、数据安全、网络安全等整体安全保障水平较低,尚不能做出快速、准确的风险识别和预警[1]。2019年7月,工信部等十部门联合印发《关于加强工业互联网安全工作的指导意见》,体系化布局了工业互联网安全工作[2];2022年12月,工信部印发《工业和信息化领域数据安全管理办法(试行)》,构建起两级监管机制,明确开展数据安全监测、认证、评估工作的相关要求[3];2023年1月,工信部、国家网信办、国家发展改革委等十六部门印发《关于促进数据安全产业发展的指导意见》,提出要强化基础设施建设,构建数据安全产品体系,加快数据安全技术与区块链等新兴技术的交叉融合创新[4]。
目前,工业互联网领域数据安全相关法规和实施办法正在逐渐完善,但相应的技术手段和产品尚不能为监管机构提供能力支撑,这必然会阻碍数据安全监管政策的落地实施,阻碍数据安全监管工作的有效推进。
本文主要针对当前数据安全监管缺乏有效的技术手段和技术工具等问题,提出基于区块链的数据安全监管模型,通过区块链的分布式共识账本技术,构建可信数据基础设施,建立起监管方和被监管方的信任机制;同时从数据安全评估、数据安全监管、数据安全防护3个方面,提出对应的数据安全模型,帮助数据安全监管业务落地,从而促进数字经济发展。
1 研究现状
随着工业互联网、物联网、云计算、移动互联网等技术的深入发展,IT与OT加速融合,工业体系逐渐由封闭走向开放,网络安全威胁开始向工业环境渗透。
从外部威胁来看,工业互联网突破了传统网络的安全界限,大量工业互联网资产在公网暴露,导致网络安全威胁不断地从外网向工业内网延伸渗透;从内部风险来看,工业控制系统设备的网络安全防护能力不足,与传统网络安全相比,工业控制系统设备更关注系统的实时性与业务的连续性,系统提供商研发系统软件时也同样更关注功能实现而忽略安全问题[5]。目前,工业互联网安全标准体系已初步建成,但单一的安全产品模式已难以满足用户的安全防护需求[6]。由于工业实体在地理上是分散的,且单个实体下的园区、厂房、车间等也都呈分散状态,如何在保证这些工业实体的数据安全的前提下,便于监管部门或主管部门进行监管,是一个非常现实的问题。2022年,王冲华等人[7]通过研究工业互联网不同层级的安全风险,提出要建立健全工业互联网平台安全管理体系。区块链技术的出现,为解决这一问题提供了一种新思路。
区块链是一种由多方共同维护,使用密码学保证传输和访问安全,能够实现数据一致存储、难以篡改、防止抵赖的记账技术,即分布式总账技术。依托区块链构建一个分布式、公正、可信的平台,实现各工业实体在生产制造过程中多主体、多环节的数据互信,将生产指令、生产数据、订单信息、操作信息、历史事务等全部记录在链上,再结合链下的分布式存储技术,使工业制造的溯源和管理更加安全便捷。对于监管部门来说,建设区块链平台,对原有系统进行增量改造,构建监管节点和企业生产制造节点,将必要的监管数据,如数据分布信息、数据分类分级信息、数据活动信息等进行上报和同步,实现工业互联网的一本账,是履行监管部门数据安全监管职责的重要技术支撑。
当前,学术界对区块链和工业互联网的结合进行了深入研究,包括二者融合、安全体系、平台架构等。2018年,黄忠义[8]提出了基于区块链技术的工业互联网平台信息安全的架构方案,将边缘采集的数据写入区块链账本,在平台即服务(Platform as a Service,PaaS)层和软件即服务(Software as a Service,SaaS)层调用账本数据进行数据管理和分析。2019年,德国国际数据空间协会(International Data Spaces Association,IDSA)提出了基于区块链构建“可信数据网络”,可用于工业4.0[9]。2021年,于建秋等人[10]提出了一种工业互联网和区块链的融合模型,在工业互联网边缘层实现可信工业数据采集,在基础架构及服务(Infrastructure as a Service,IaaS)层实现可信工业大数据存储,在PaaS层进行数据建模、模型共享,在工业应用(Application,App)层提供工业区块链应用。同年,于金刚等人[11]提出了基于区块链技术的工业互联网安全平台架构,通过区块链网络控制网络终端设备,保证终端数据的安全性。
除此之外,基于区块链的数据安全应用也是学术界的研究热点。2019年,靳志伟[12]提出了基于区块链的密钥管理、数据监管、设备资产管理,为构建可信的工业互联网提供了平台支撑。2020年,汪允敏等人[13]提出了基于区块链的工业互联网标识管理系统,管理工业互联网标识数据。
然而,上述研究内容并没有从监管视角出发,在帮助监管方进行监管的同时,未能帮助被监管方提升数据安全防护能力,无法使监管和防护做到有机联动。
2 模型介绍
2.1 总体研究思路
针对工业互联网的行业痛点、需求,以我国相关政策、文件及会议精神为指引,构建基于区块链的可信数据基础设施,以监促防、监防一体,通过为国家工信监管部门、地方工信监管部门、工业行业协会、工业集团企业等监管/主管机构提供数据安全监管能力支撑,实现企业的数据安全合规和数据资产安全流动,促进数字经济发展。研究思路如图1所示,主要包括以下3个核心要点:
图1 研究思路
(1)构建可信数据基础设施,利用区块链技术搭建数据流通信任桥梁。
(2)建立数据安全监管体系,为数据安全监管落地提供实施验证参考。
(3)提出数据安全防护框架,以合规监管促进企业对数据安全防护的重视。
2.2 模型介绍
2.2.1 可信数据基础设施模型
单个应用的数据安全问题,通过单一或组合的数据安全产品便可以解决,而解决数据要素市场、行业或国家层面的数据安全问题,则需要可信数据基础设施来解决。可信数据基础设施模型如图2所示。可信数据基础设施是针对数据要素流通的安全和监管需求,基于区块链构建的“一账式管理、密态化计算”数据基础服务平台,在提供有效监管和控制数据流转边界的同时,促进数据价值可信流动。其理念是以密码为核心,以区块链账本记录的数据身份、数据目录为基础,以各类安全设备,如数据安全防护系统、数据分类分级系统、数据脱敏系统、数据库审计系统、数据防泄漏系统等为安全管控手段,实现数据资产的统一管理和共享流通。
图2 可信数据基础设施模型
2.2.2 数据安全评估模型
数据安全评估,可用于数据安全监管机构对受其监管的工业企业定期开展数据安全风险评估活动,也可用于工业企业对自身数据安全的自评估活动。本文参考了2021年12月由中国人民银行公布的《金融数据安全 数据安全评估规范(征求意见稿)》[14],在考虑工业互联网行业实际特点的基础上,以数据分类分级的要求为牵引,从数据安全管理、数据安全防护、数据安全监管、数据安全运维4个方面提出数据安全评估模型,如图3所示。其中,数据安全管理主要从工业企业管理角度出发进行评估,包括组织架构人员管理、制度规范流程管理、技术运营合规管理等;数据安全防护适用于工业企业信息系统安全防护,包括数据分类分级、数据生命周期安全防护等;数据安全监管主要从监管机构的监管视角切入,包括数据备案、安全评估、活动监测等;数据安全运维适用于对系统工具的运维保障,包括边界管控、访问控制、安全审计、安全检查、应急响应与事件处置等。
图3 数据安全评估模型
2.2.3 数据安全监管模型
数据安全监管,是指监管或主管机构对监管和管理范围内的被监管方的数据安全情况的监管。数据安全监管模型如图4所示,被监管方采用主动和被动两种模式,以数据分类分级为基础,将机构情况、数据资产情况、数据活动情况进行主动报备;监管方利用数据防泄露等技术,对被监管方的数据活动进行实时检测、被动抓取;监管方基于区块链技术,实时、可信、高效地同步管理指令、管控指令、数据目录等。
图4 数据安全监管模型
2.2.4 数据安全防护模型
数据安全防护面对的主要是被监管方即企业机构,针对被监管方数据资产安全情况的管理、审计和监管需求,以数据分类分级为基础,以系统数据操作日志审计和监控为主要手段,按照数据域情况,划分出包括业务域内防护、业务域间防护、业务域外共享防护在内的三道数据安全防护防线,数据安全防护模型如图5所示。从域内的访问控制、加密存储、加密传输,域中的分类分级、脱敏、审计等,到域外的数据安全共享,由数据安全防护系统对数据安全进行统一管理、调度、分析、管控,是企业的数据安全中枢。
图5 数据安全防护模型
2.3 主要流程
2.3.1 数据资产备案登记
数据资产备案登记,是建立数据安全监管体系的基础,需要受监管的企业机构主动提交相关信息,完成以企业主体、数据主体、数据活动主体为维度的信息备案。数据资产备案登记流程如图6所示。
图6 数据资产备案登记流程
流程说明:
(1)工业企业申请注册,填写企业备案信息。
(2)监管机构审批企业备案信息,通过后为企业下发数据安全监管系统账号。
(3)工业企业使用数据安全监管系统进行数据资产备案。
(4)监管机构审批数据资产备案,形成数据备案记录。
(5)监管机构通过态势呈现查看本区域企业分布情况、数据备案情况、共享活动关系、数据安全态势等。
2.3.2 数据安全活动评估
数据安全活动评估是数据安全监管的有效手段,评估的全面性、准确性、权威性决定了数据市场的生命力。数据安全活动评估流程如图7所示。
图7 数据安全活动评估流程
流程说明:
(1)工业企业向监管机构提交评估申请和自评估报告,监管机构指定具备有效评估资质的评估机构进行评估,工业企业可申请进行系统安全评估、数据安全评估、跨境安全评估等。
(2)评估机构线下进驻申请工业企业,按照评估规范要求,完成对申请工业企业的评估工作,并向工业企业反馈评估结果和报告。
(3)评估机构向监管机构提交评估报告,监管机构确认并查看评估报告。
2.3.3 数据安全监测预警
数据安全监测预警是数据安全监管服务平台的核心,可以帮助监管机构及时发现监管企业的数据安全风险,并采取相应措施。数据安全监测预警流程如图8所示。
图8 数据安全监测预警流程
流程说明:
(1)在工业企业或工业互联网平台的数据出口处旁路部署数据安全监测设备,监测企业对外数据流量。
(2)监管机构在数据安全监管系统配置数据监测策略,并下发至数据安全监测设备。
(3)数据安全监测设备对获取的数据进行解析和检测,并将监测结果上报至数据安全监管系统。
(4)数据安全监管系统对监测结果进行分析,并做出安全风险预警。
(5)监管机构根据风险预警,对企业进行处置,由企业内部进行安全整改。
2.3.4 区块链数据确权溯源
区块链数据确权溯源技术主要针对数据流通过程中的安全管控问题,通过区块链共识验证技术对工业数据资产的发布确权、订阅审批、共享计算、使用溯源进行多方共识验证,形成不可篡改的工业数据流通全生命周期的流转记录[15]。区块链数据确权溯源流程如图9所示。
图9 区块链数据确权溯源流程
流程说明:
(1)数据提供方对需要共享利用的工业数据打上安全标识,调用共享利用服务,完成数据目录发布。
(2)数据使用方对共享计算策略(包括计算模型、计算过程管控等),各节点按策略格式、合规性等进行验证,达成共识后确认;对读取数据的请求(即获取计算结果),各节点按策略验证读取条件,达成共识后授权。
(3)数据流转计算过程中,区块链将记录全流程的不可篡改存证信息,获得整个数据使用过程中的使用者、使用对象、使用数据方式、使用数据时间、范围等信息,实现数据资产流转的溯源与审计。
3 关键技术
基于数据安全监管模型,在实际监管工作中,监管方要完成对被监管方的数据安全监管,需要定义统一的数据属性,基于该属性,结合链下监管方自身业务数据和链上可信交易数据进行综合分析审计,发现异常数据行为,再通过统一的数据标识串联区块链链式数据,对异常数据行为进行溯源和定责。这里主要涉及数据统一表示及确权技术、数据资产溯源与责任定位技术、区块链交易数据获取和解析技术等关键技术。
3.1 数据统一表示及确权技术
数据的高效流通和监管需要对数据进行标准化与权属化处理,首先通过建立数据资产统一描述元数据模型,构建多维度数据属性指标体系,对数据特征与价值进行统一描述;其次使用ID生成工具对数据资产标记,形成唯一的身份标识,实现数据资源的实例化;最后将该数据资产提交至区块链网络,通过分布式多中心的方式对数据资产权属进行唯一性鉴别,与数据拥有方身份一起记入区块链分布式总账,实现对数据权属的公开确认。数据统一表示及确权技术如图10所示。
图10 数据统一表示及确权技术
3.1.1 数据统一表示
数据资产具有多维度的属性特征,结合数据应用场景及共享流通方式,从数据主体属性、特征属性、安全属性等维度,构建数据的多维度特征模型。其中主体属性涉及数据的4类参与方,即数据拥有方、数据使用方、数据运营方和数据监管方,不同参与方对数据拥有不同的权限,这里数据拥有方、数据使用方都有可能是被监管方;特征属性主要从数据自身价值的5个维度考虑,数据精细化反映数据质量和共享程度,多样化反映数据类型和可访问性,活跃度反映数据的活性、再生性和使用效果,规模度反映数据规模和价值密度,关联度反映数据外在关联性;安全属性从数据保护方式和访问范畴两个维度,对数据资产建立细粒度的数据安全策略。
基于上述属性维度,建立数据资产描述元数据模型,采用灰色关联与模糊聚类的方法,对数据特征与价值进行统一描述。
3.1.2 数据确权
在数据资产统一描述的基础上,以数据指纹为核心,结合公钥地址、可信时间戳、被监管方ID等信息,对数据资源形成唯一的身份属性,实现数据资源的实例化,并在数据发布时记入区块链服务系统;通过模糊哈希算法对所提交数据进行模糊匹配及相似度分析,实现对数据权属的唯一性鉴别,与数据拥有方身份一起记入区块链分布式总账,形成统一、可信、不可篡改的数据权属账本,实现对数据资源权属的公开确认。
(1)数据属性生成。数据拥有方使用统一的工具对数据提取数字指纹,生成数据资产唯一标识。
(2)数据资产发布。数据拥有方将数据的权属主体、唯一标识、元数据,连同发布时间、发布者、组织机构等信息通过调用智能合约进行发布。
(3)权属唯一性鉴别。区块链接收到发布请求及发布信息后,通过模糊哈希算法对所提交数据进行模糊匹配及相似度分析,实现权属唯一性鉴别。
(4)权属公开确认。数据资产权属唯一性鉴别通过后,区块链将生成不可篡改的交易记录,可通过数据指纹查询首次发布记录,实现数据确权。
3.2 数据资产溯源与责任定位技术
基于区块链的数据资产溯源与责任定位技术,融合区块链链上数据和链下包括监测设备抓取到的文件、被监管方主动上报的日志等数据,将经过数据分析后发现异常行为的数据,结合交易签名及数据指纹进行相似度匹配评估,定位被监管方的问题。数据资产溯源与责任定位技术如图11所示。
图11 数据资产溯源与责任定位技术
3.2.1 基于数据指纹的分析审计
数据流通过程中,被监管方根据监管智能合约的统一要求,将数据指纹信息等上链存证,对区块链账本进行解析后,使用数据指纹信息重构数据安全监测设备获取到被监管方共享的文件、日志、数据流等数据索引,建立数据监管列表。
通过对数据监管列表信息进行数据分析,依据流通行为发生的时间先后,结合数据资产统一属性、企业ID、地址等,构建出以数据指纹为中心的共享溯源态势链条;通过对数据监管列表进行审计,定义异常行为规则,识别基于数据指纹的异常行为。
3.2.2 相似度匹配评估
由于流通过程涉及的特征数据、属性信息和文件数据等分别保存在链上和链下,在对数据资产进行精确匹配度评估时就需要采用链上链下融合评估的方式进行,保证每一份数据,尤其是文件类数据都能够进行完整的匹配度评估。链上链下融合匹配度评估如图12所示。
图12 链上链下融合匹配度评估
(1)特征匹配。若文件或数据没有加密,则直接对其提取特征信息和属性信息,再使用该信息进行特征匹配,根据匹配结果直接定位该文件或数据。
(2)指纹匹配。若文件或数据已经加密,那么在确认被监管方后,可以基于模糊哈希算法进行相似度匹配,计算匹配到的数据指纹个数,根据设定的数据指纹个数匹配阈值,定位到文件或数据。
3.3 区块链交易数据获取和解析技术
基于区块链的数据安全监管模型,其核心思想是利用区块链数据的不可篡改性。监管方通过获取和解析链上被监管方存证的关键交易数据,以机器可信数据为基础进行数据安全监管和数据分析,减少人为干扰因素的影响。
为了降低被监管方开发智能合约的技术门槛,同时也为了使可信数据基础设施更具有普适性,区块链交易数据获取和解析技术首先定义Key-Value(KV)智能合约模板,明确交易实体数据结构,包括实体标识、所属权、关联关系、状态、描述信息等,封装区块链内部逻辑,规范账本中业务数据的结构,对外提供Get、Set、Update、Delete等类似数据库操作的合约方法。交易写入账本后,监管方对区块数据抓取、清洗,利用监管密钥对交易数据按照Key-Value的结构进行解析,获取数据后按照自身监管要求处理和利用数据,完成对被监管方的监管,从而更高效地实现溯源,呈现数据安全态势。区块链交易数据获取和解析技术如图13所示。
图13 区块链交易数据获取和解析技术
3.3.1 业务数据上链
业务数据上链流程如下:
(1)开发者利用KV模板进行合约开发,产生基于KV模板的业务智能合约。
(2)完成合约部署并运行合约,产生业务交易,每笔交易加密上链后,对应一个交易哈希。
(3)通过KV模板规定,产生的交易哈希会对应一个业务数据表。
(4)通过业务数据表对交易进行关联性分析。
3.3.2 区块数据抓取
区块数据抓取流程如下:
(1)在抓取服务中配置区块链组织的用户信息、用户证书、服务商信息,以及节点的访问地址和端口信息。
(2)启动定时任务,监听区块链组织节点的业务链信息。
(3)启动数据抓取服务,创建对应的数据存储库表。
(4)抓取服务根据配置文件中获取到的节点地址及端口,连接到对应的组织节点,监听组织节点出块信息。
3.3.3 交易数据解析
交易数据解析流程如下:
(1)抓取服务获取到组织所有节点的出块信息,将所有出块信息存储到内存。
(2)监管方利用监管密钥对交易内容进行解密。
(3)根据KV模板的规定,对解密后的交易进行数据解析。
(4)解析后的数据自动落库,形成该交易对应的业务数据表,并保存交易对应的业务数据表。
在整个交易解析过程中,为了加强账本数据的安全性,需要产生相应的交易密钥和监管密钥,以保证只有交易密钥和监管密钥能对特定交易的账本交易数据进行解密。当然,如果账本数据本身是可以公开的,也可以省去这一步。
3.4 基于数据属性的安全态势呈现技术
以数据资产描述元数据模型为基础,基于数据属性,通过丰富的图形化展示,将数据资产、安全事件、风险告警、流转路径等进行可视化呈现,提供数据资产分布、数据安全事件、风险告警态势、数据血缘图谱等安全态势,帮助用户清晰和直观地了解自身数据资产情况和风险状况。基于数据属性的安全态势呈现技术如图14所示。
图14 基于数据属性的安全态势呈现技术
(1)静态资产统计。提取静态数据资产的数据属性信息,形成数据基础属性、数据分类属性、数据分级属性、数据权属属性等。
(2)安全风险分析。结合数据流通日志信息,抽离日志中描述的数据属性,基于不同属性对数据展开多维度、细粒度且灵活的审计及分析,为态势呈现提供更全面、多维度的数据来源。
(3)数据血缘分析。以某一数据为中心,提取该数据所有相关日志,按时间序列排序,对数据指纹进行模糊哈希匹配,计算数据分布和血缘图谱,展示数据变化路径。
4 应用案例
某工业数据安全管控治理平台的设备研发与应用项目,针对工业异构化数据没有统一标准、工业数据跨域传输的一致性难以得到保证、工业数据资产分散难以管理等问题,以数据为中心,充分考虑数据生存周期的所有环节,利用分布式访问控制、数据血缘分析、数据一致性验证与审计等数据安全技术,建立了工业互联网领域的工业设备与供应链可信管控系统,并在某工业厂区的供应链跨域协同场景中应用,实现了跨厂区的供应商数据、采购数据的安全共享和可信协同。某工业数据安全管控治理平台项目系统部署如图15所示,通过接入安全认证或信任服务系统,实现对设备和人的身份认证;通过构建数据安全服务区,实现对网络内的数据安全管控治理;通过在车间生产网络及业务管理网络构建区块链节点,实现不同网络间重要生产管理指令和数据的一账式协同管理。
图15 某工业数据安全管控治理平台项目系统部署
供应链数据安全管控治理平台项目的工作原理如图16所示,采用数据指纹对数据进行描述,结合用户身份制定数据访问控制策略,实现精细化的数据访问权限控制,在数据共享过程中以数据属性对数据的一致性进行验证,利用区块链技术保证数据可信,同时根据安全审计策略对数据共享行为进行安全审计和风险告警,提高信息共享的时效性和可靠性,提升数据安全风险管控能力,并基于数据血缘追溯和态势呈现技术,形成数据资产地图、敏感数据流转、风险告警等态势,展现清晰的供应链数据流转路径和直观的风险事件告警。
图16 某工业数据安全管控治理平台项目的工作原理
该项目目前正在一家企业内进行数据安全监管、溯源的应用示范,后续将推广到多家企业进行建设。
5 结 语
自国家出台数据安全的相关法律法规以来,数据安全就成为当前安全领域的研究热点。本文从监管角度切入,面向工业互联网领域,提出了一种以监促防的基于区块链的数据安全监管模型。由于区块链采用的是基于数学模型与密码学算法的机器信任模式,相对于传统的人治信用、权威信用等模式,可以降低人为参与程度,通过构建多方共建、共治、共识的区块链基础设施,解决监管方和被监管方的信任问题。在互信的基础上,完成数据安全评估、数据安全监管,帮助监管方有效地掌握被监管方的数据资产、数据活动等情况,并推动被监管方加强自身的数据安全防护建设,为建立健全数据要素市场提供新的思路和方法。
当然,区块链本身也存在局限性,如代码漏洞、资源冗余等问题,因此在落地时,需要充分结合具体数据防护和监管场景。另外,数据安全监管是一个很大的命题,也是热门研究方向,目前还在逐步清晰中,随着业务和相关政策不断细化落地,框架和理念会逐渐成为现实,该模型才会真正具备落地实施的意义,这也是后续需要不断完善和加强的工作。