数字化转型背景下企业数据保护成熟度模型构建*
2021-10-08池雅琼齐佳音
池雅琼 刘 峰 齐佳音
(1.上海对外经贸大学统计与信息学院 上海 201620;2.华东师范大学计算机科学与技术学院 上海 200062;3.上海对外经贸大学人工智能与变革管理研究院 上海 200336;4.华东师范大学交叉创新实验室 上海 200062)
数字化转型是数字经济时代企业运营的大势所趋,尤其在新冠疫情的冲击下,各行各业被迫按下了“暂停键”,但企业的数字化进程却按下了“加速键”。不仅互联网企业天然是数据驱动运营的企业,传统企业也逐渐向数据驱动转型升级。习近平总书记多次指出,要加快数字经济发展,抓住产业数字化、数字产业化赋予的机遇,抓紧布局数字经济,推进数据资源整合和开放共享,保障数据安全。在数字化浪潮下,“得数据者得天下”,数据有效保护与数据高效应用同时成为企业数据资产运营的重要方面。在此背景下,数据保护这一议题已经被提升到前所未有的战略高度,数据保护日益受到产业界和学术界的关注。
数据保护最早可从欧洲对个人信息保护的系列法规中初显端倪,而后,2018年《通用数据保护条例》(GDPR)问世则在全球引发了数据保护的广泛讨论与实践。目前学术界对于企业数据保护的研究主要从法律规制下企业的数据合规问题、企业数据面临的信息安全问题、技术与企业数据安全保护这三个角度来开展。
角度一:法律规制下企业的数据合规问题。毋庸置疑,在数据保护方面,欧盟始终走在世界前沿,其GDPR为全球的数据立法树立了典范,同时也引起了学术界的研究热潮。学者们从该法规的立法、执法和司法三个层面,分析GDPR在企业数据实践操作场景中的适用范围[1]、数据保护原则[2]、数据处理的合法性基础[3]、数据主体的权利等合规问题[4]。GDPR特别提出的数据保护影响评估制度(Data Protection Impact Assessment, DPIA)的理念与实践也是研究的热点之一,以风险管理为路径的数据保护体系[5],是学者们建议的以促进平台企业自证合规、配合监管的DPIA 制度设计构思[6-7]。此外,学习欧美国家数据保护立法的“通过设计保护隐私机制”也是研究者所提出的我国行业数据合规的有益借鉴[8]。
角度二:企业数据面临的信息安全问题。随着企业数据集中化和汇聚化程度的加剧,企业面临的数据安全管理也随之迎来了新的挑战。这一方面的研究,学界们从终端、网络、机房、数据以及系统等方面剖析[9、10],提出解决以数据资产管理、数据使用共享、安全风险管控为突出问题的企业信息安全既是大数据时代决定企业成功管理的核心要素[11、12],也是企业实现自我发展的必要措施。并且随着当前市场数据垄断形势越发严峻,研究者还提出了三种有效的数据治理模式,以促进数据安全共享和大数据产业合理规范发展[13]。此外,企业敏感数据的安全问题也不容忽视,特别是个人隐私数据安全问题,不仅需要规制系统的法律效力和规则来保护个人信息[14],还应与企业对大数据的应用相联系,需辩证地看待大数据的利用,通过平衡两者的利益关系,以保护企业数据隐私和公民信息安全[15、16]。
角度三:技术与企业数据安全保护。企业数据的安全保护与技术实施密不可分,但技术的发展却也使得企业的数据安全面临着更易于泄露的风险。基于扭曲技术、加密技术、匿名技术以及差分隐私技术的隐私保护方法等,是现有的数据安全保护方法系统架构内常用的数据保护技术,但这些技术目前还存在显而易见的数据安全问题。在此背景下研究者提出了数据保护架构升级改造的设想,将数据平台与大数据时代企业数据中心结合,使数据备份成为企业数据保护最后一道牢靠的防线[17、18];而基于智能合约、联盟区块链的隐私数据保护方法构思的出现也进一步提升了个人与企业之间数据安全信任机制[19、20];同时,针对企业间的“数据孤岛”现象,AI技术联邦学习或是解决企业数据保护难题,实现跨企业协同治理的重要技术手段[21]。
在企业数据安全能力成熟度模型的实践方面,也有不少学者和机构对此进行了研究和探索:郑斌以大数据背景下数据安全能力框架为基础,分析数据安全保护能力的实现路径[22];李克鹏基于数据安全能力成熟度模型,构建了大数据安全与隐私保护能力的提升方案[23]。此外,也不乏以国际主流数据保护法为导向的各类成熟度模型研究:如以通用的隐私原则(GAPP)为基础的AICPA/CICA 隐私成熟度模型、Intel隐私成熟度模型;以及以通用数据保护条例(GDPR)为背景的GDPR成熟度框架等,为数据保护官(DPO)和企业组织在全球范围内了解数据保护、隐私和安全的复杂性提供了现实经验参考。
然而遗憾的是,现有研究成果主要从宏观层面分析企业数据保护面临的困难以及研究各种技术对企业数据保护的效用,即便是企业数据安全能力成熟度模型的实践案例也多停留在定性阐述阶段,对于企业数据保护能力成熟度的量化评估,相关学术研究还相对缺乏。
同时对于企业来说,数据保护成熟度的量化研究不但是企业迫于数字时代数据治理的压力,也是企业实现战略目标的关键成功因素。相比于各国自行设立监管法案而言,作为“地缘政治对手无法比拟的全球监管霸主”,欧盟的行动从国际视角反映了大数据背景下企业数据保护的终极价值追求[24]。因而本文从企业实际开展业务过程中的数据监管问题出发,以隐私影响评估(PIA)为指南,以能力成熟度模型和数据安全能力成熟度模型为理论基础,借鉴AICPA/CICA 隐私成熟度模型、GDPR成熟度框架以及Intel隐私成熟度模型,构建企业数据保护成熟度评估模型,并将模型运用于国内三个典型行业:金融、保险业;信息传输、计算机服务与软件业;批发、零售业。结果不仅表明本模型对企业数据保护成熟度评估的适用性,更揭示出不同发展水平的企业数据保护的不足之处和加强方向,从而能够更加充分地了解现阶段大数据背景下企业数据保护可能存在的风险,帮助企业更加及时、客观、准确地了解其在数据保护方面的成熟度,为数字经济背景下的企业数据运营从保护与合规角度提供了参考。
文章余下部分结构安排:第二部分为相关理论介绍;第三部分为模型构建;第四部分为模型应用;第五部分为结论与展望。
1 相关理论
1.1隐私影响评估隐私影响评估(privacy impact assessment,PIA)被定义为一种用于在组织风险管理框架内识别、分析、消除与个人信息处理相关的活动对隐私产生的影响的制度[25]。作为信息安全领域的常规手段,PIA规定了包括软硬件设施安全、外部非法入侵以及与员工活动等在内的系列信息安全典型威胁。PIA不仅适用于各种类型和规模的组织机构以及信息系统,同时还确定了相关的隐私防护要求、涉及的资源与人员、威胁与发生可能性等系列重要过程,成为了很多标准实施过程中的必选理论[26]。如以欧盟GDPR引入的数据保护影响评估( DPIA) 为首的制度就是基于PIA理论的创新表现;此外,该理论的政府数据开放实践成效也在以美国、英国等为代表的开放政府联盟成员国发布的隐私影响评估政策中有显著体现[7,27]。
1.2能力成熟度模型成熟度模型的概念始于1986年Humphrey等人应美国国防部软件工程研究所(SEI)的要求,为评估政府承包人交付软件项目的能力所提出的成熟度框架简要概述[28],该框架后来在Humphrey的《管理软件过程》一书中又进行了扩展[29];并以此为基础,经历了四年的演化最终形成了能力成熟度模型(CMM)[30]。是目前国际上最流行实用的软件生产过程标准和软件企业成熟度等级认证标准;该模型虽然来自软件开发领域,但它也被用作一般模式来辅助业务流程。
CMM的理论内涵在于软件开发过程中的问题实际上是由组织者管理软件过程的方法引起的,基于提高生产率和利润率的目标,组织需要建立一个有规律的、成熟的软件过程。因此CMM目的正是帮助开发人员选择过程改进策略,通过确定他们当前的过程成熟度和锁定最关键的问题,来改进他们的软件质量和过程[30]。CMM基于软件工程的历史经验教训,提供了一个阶梯式的改进框架,明确软件开发方面的主要工作、其中的联系,以及开展工作的先后顺序,一步一步地指引组织做好这些工作并以增量方式逐步引入变化,同时将这些演化步骤划分为五个成熟度级别:初始级、可重复级、已定义级、已管理级以及优化级[30],促进软件组织走向成熟。
1.3数据安全能力成熟度模型(DSMM)数据安全能力成熟度理论来源于产业实践积累沉淀,并逐渐形成国家标准《信息安全技术数据安全能力成熟度模型》,由中国国家标准化管理委员会于2019年正式发布,作为组织机构评估自身数据安全能力的科学依据及参考。
以采集、传输、存储、处理、交换、销毁六项数据生存周期过程的安全为核心的数据安全能力成熟度模型标准为组织数据安全能力的成熟度提供了基础模型架构,主要体现在安全能力、能力成熟度等级、数据安全过程三个方面。其中对组织建设、制度流程、技术工具以及数据安全工作的人员安全意识和相关能力均严格要求的指标是安全能力维度的四个重要衡量方面;以企业数据安全过程计划程度为依据划分出五个层次成熟度作为组织的数据安全能力成熟度等级;最后围绕数据生存周期过程和诸如数据安全策略规划、鉴别与访问控制等11项通用安全过程域构成的数据安全过程维度评估指标,联合形成了数据安全能力成熟度模型开展企业数据保护评估实践的理论内涵[31]。
综上可知,隐私影响评估注重在组织风险管理框架内有关隐私影响的各方面,致力于减轻相关威胁为隐私保护造成的不良影响,并为影响划分等级,为组织及信息系统的信息安全提供了经典的数据保护理论思路,这与能力成熟度模型及数据安全能力成熟度模型的本质是一致的。结合隐私影响评估的制度原理和成熟度模型的理论内涵,本文将构建数据保护成熟度模型来量化企业数据保护践行成效,推动企业数据资产合规运营。
2 企业数据保护成熟度模型的构建
2.1数据保护成熟度评估体系构建隐私影响评估(PIA)从隐私保护实践涉及的各方重要过程角度来设计确保隐私保护过程直至项目部署完成,为后续许多信息安全风险评估标准提供了惯例参考;能力成熟度模型和数据安全能力成熟度模型从操作运营角度分别围绕组织工作过程改进、数据生存周期提出了成熟度实践的演化步骤。企业实践层面,以通用隐私原则(GAPP)和通用数据保护条例(GDPR)的法律合规为导向,以企业生产实际的数据保护计划为基础的AICPA/CICA 隐私成熟度模型、Intel隐私成熟度模型以及GDPR成熟度框架,为数据保护提供了行业标准示范和全球数据保护的实践示例。因此,将数据保护的理论基础与企业实践的成熟度模型结合就可构建企业数据保护成熟度评估模型。
根据DSMM对鉴别与访问控制等通用安全过程域的要求,以及PIA的典型威胁项目组成和隐私保护过程,将软硬件安全和外部非法入侵用平台风险表示,其中针对软硬件安全,细分为信息系统缺陷、网络协议漏洞、物理环境缺陷和隐私安全设置四项基本指标;针对外部非法入侵用黑客窃取指标来表示[33]。
根据PIA强调的以员工为主体的涉及隐私影响的活动也作为一般威胁项目,CMM、DSMM以及Intel隐私成熟度模型对组织建设、数据安全工作的人员安全意识和相关能力的内在要求,用企业行为维度来系统概括,并将该维度细分为以员工活动为核心的数据隐私意识、数据隐私管理制度、信息保护行为疏忽三个指标。
根据DSMM对数据保护的技工工具使用要求,AICPA/CICA 隐私成熟度模型、Intel隐私成熟度模型和GDPR成熟度框架对相关隐私保护法律特别是数据跨境传输方面的重视程度,以及对企业敏感数据保护的主旨要求,以外部威胁维度来表示,结合一级指标知识产权破坏、政策影响、隐私保护技术代差、数据跨境传输保护四个方面来度量。
同时引入CMM和DSMM的五个成熟度等级,从整体出发,以平台风险、企业行为、外部威胁为企业数据保护的三个重要维度的协同度量,来划分企业数据保护成熟度评估等级,并使用1到5评分对应五个成熟度等级。基于目前在成熟度详细打分方法介绍方面的文献较少的情况,本文参考Intel隐私成熟度模型分值粒度划分的企业实践,将本模型打分方式的分值粒度设为0.5,如0.5-1定义为初始化阶段,1-1.5定义为第一阶段向第二阶段发展的过程当中(如表1),以便于模型计算。
从理论基础到企业数据保护成熟度模型的构建见图1所示,指标定义如图2所示,成熟度打分如表1所示。
图1 模型构建
图2 指标定义
结合表1给出的数据保护成熟度打分表,即可为企业实际数据保护程度进行初始评分。
表1 成熟度打分(分值粒度0.5)
2.2数据保护层次模型构建及模型指标权重计算在企业数据保护成熟度评估模型中大多数指标都是定性化,具有一定的模糊性,因此在能力评分的初始值基础上结合指标权重,量化评估结果。为确定指标权重,将指标进行定量分析,本文采用九级标度法量化风险评估指标相对重要性[32]。传统的层次分析法是确定指标权重的一般方法,但是该方法仅仅适用于单专家决策时使用,存在判定结果主观性较强的问题。为避免单专家决策造成的主观性强以及权重系数不合理的问题,基于群决策层次分析法可以有效将各专家评分聚集的特性,本文采用群决策层次分析法,邀请32位专家共同参与决策,借助专家经验,更科学地测量分析评估指标权重。然后为更进一步降低群决策层次分析法的指标权重主观性,再运用香农信息熵,计算各项评价指标的熵值,确定指标客观权重,最后将主客观指标进行综合分析[33],获得最终的模型评估指标权重值。
2.2.1 数据保护层次模型构建 群决策层析分析步骤与一般层次分析法类似,包括构建多级递阶的层次模型、构造判断矩阵、层次单排序及一致性检验、层次总排序及一致性检验四个步骤[34],该法仅在构造判断矩阵部分有差异,其差异表现在需将各专家单独的判断矩阵聚合成一个共识的判断矩阵。本文根据上述数据保护成熟度指标体系三大领域及十二项要素,构建数据保护层次结构模型(见图3)。
图3 层次结构模型
本文使用群决策层次分析法计算软件yaaph(Yet Another AHP)[34],构建各专家判断矩阵并计算其一致性检验,然后再聚合判断矩阵。其中均通过一致性检验的单专家判断矩阵为聚合后的专家共识判断矩阵提供有效数据支持。
2.2.2 模型指标权重计算 模型指标权重计算方式为群决策层次分析法获得的主观权重与信息熵获得的客观权重的加权值,本文主要参考了文献[33]的信息熵计算公式:
a.首先对由群决策层次分析法得到的初始主观指标值进行标准化:
(1)
其中xij是指标aij标准化后的指标,aijmin为指标aij的最小值,aijmax为aij的最大值。得到标准化判断矩阵A=(xij)m×n。
再对矩阵A中各元素归一化:
(2)
b.确定各项指标的熵值:
(3)
c.各项指标变异系数的获取:
Gj=1-Hj
(4)
d.定义各项指标的客观权重:
(5)
e.主客观指标权重的加权计算[33]:
Ej=λ×Aj+(1-λ)×Bj
(6)
其中λ为赋权系数,可随实际评价成效选取,Aj为群决策层次分析法计算获得的主观权重,Bj为信息熵计算所得的客观权重,因此成熟度评价模型的指标向量表示为:
E=(E1,E2,…,En)
(7)
3 企业数据保护成熟度评估模型应用
3.1典型行业分析为了采用上述数据保护成熟度评估方法和模型对我国大数据企业的数据保护现状进行评估,本文选择国内三个行业:金融、保险业;信息传输、计算机服务与软件业;批发、零售业,并对行业数据保护成熟度评估进行了应用,通过问卷发放的方式不仅获得三个行业数据保护的实际情况,还邀请了32个涉及金融、管理、贸易、法律、信息技术、数据隐私等各领域的专家来为模型指标权重赋值(本文研究涉及的原始数据均放置于网址:https://github.com/CHIYAQIONG/Original-data-of-questionnaire.git)。根据专家问卷,考虑到问卷获得的判断矩阵中可能存在多项数据的小误差累积,以及专家在输入数据时,有可能因为某点专业知识的欠缺或理解错误,或者由于误操作给出了错误的判断数据两方面因素,本文利用yaahp软件分别计算并修正各专家的单独判断矩阵后,所有判断矩阵均具有一致性(具体数据见附录),再集结所有专家判断矩阵,计算方式采用数值平均来降低误差,最终获得如表2一级指标总排序,专家各层级共识判断矩阵见附录文件。
表2 一级指标总排序
在获得的一级指标总排序表的基础上,按照上述信息熵方法继续计算客观权重,并设定赋权系数λ=0.4,得到如下数据保护各因素权重计算汇总结果表3。
表3 数据保护各因素权重计算汇总结果
结合回收到的300份来自三个行业(行业比例1∶1∶1)的数据保护成熟度初始评分有效问卷数据(Cronbach’s Alpha=0.888,KMO=0.932),最终得到如表4行业对比结果。
表4 金融业、信息技术业、零售业数据保护成熟度最终评估情况
对比三个行业各自数据保护评估得分可发现:金融业总体成熟度得分位列第一,其次是零售业,最后是信息技术业。具体分析如下:
随着数据增长新纪元的到来,全球数据积累存量正逐渐引爆新一轮的时代变迁,金融行业作为天然拥有海量数据的市场,其金融数据在全球数据总量占比极高,科技技术的落地生根更是使得金融业正孕育着百年未有之大变局。数据已经成为了现代金融行业的经济命脉,数据的安全保护也成为金融行业稳健运行不可或缺的一方面。上述结果与当前金融行业积极维护数据安全这一核心竞争力的现状相符,同时也归因于国家层面相关法规在金融界的优先体现,如以《外国机构在中国境内提供金融信息服务管理规定》为代表的法规,是我国在针对金融信息服务方面较早的监管条文。
在网络安全公司 Trustwave 发布的2019年全球安全报告中指出,零售业以18%的数据泄露占比成为数据泄露事件最多的行业[35]。如历来为用户诟病的电商快递企业客户信息“裸奔”问题,以及行业高度依赖第三方安全服务导致系统漏洞的忽视等,均是零售业数据保护能力成熟度弱的行业表现,而究其原根本原因就行业的低安全标准。首先出于行业性质,相比金融行业,零售业对数据保护的意识原本就相对薄弱;再者许多传统零售企业都处于转型升级的阶段,零售业需要依靠数字化技术来转型,但是本身行业又无力自主提供技术保障;最后行业内多数交易都是以合作方约定俗成的方式进行,缺乏有关数据保护的统一行业规范。
而信息技术行业虽然作为数据保护的关键技术支持行业,但是据McAfee发布的一份报告显示,尽管安全技术不断进步,但绝大多数IT技术人员表示仍然难以保障企业的数据免受泄露。即使是像Facebook这样的科技巨头公司也无法完全避免诸如黑客的攻击和病毒木马此类的数据泄露的头号杀手。纵观IT行业数据保护问题的来源,首先IT行业作为各行各业的技术依仗,频繁出现的数据泄露事件使得IT专业人员信心缺乏,导致投资和技术始终落后于环境威胁的变化速度;其次技术差距问题是一个备受争议的问题,RSA Conference(国际信息安全峰会)副主席兼负责人Sandra Toms指出,大部分IT企业招聘团队因缺乏充分重视受聘人才的多样性,导致IT人才的流失,行业水准层次不齐;而技术差距会使得许多企业寻求外援,那么内部人员和外包商也扩大了行业数据安全的威胁。
此外,三者最薄弱的领域均为外部威胁,具体而言,三个行业的薄弱指标均体现在物理缺陷、隐私安全设置、黑客窃取、信息保护行为疏忽、数据跨境传输方面。对于一般行业而言企业均首先在平台的搭建方面投入大量的人力物力以及财力,作为企业发展的基石,因此各行各业的第一发展规划中应对平台风险首当其冲;那么随着社会数据安全意识的不断提高,企业开始意识到数据保护的重要性,逐渐将数据安全意识纳入企业文化当中,并施以一定的保护制度作为约束企业员工数据泄露的措施,但是企业的数据分级分类、隐私保护的量化评估始终在处在开始阶段,因此在企业行为领域中疏于信息保护行为;并且企业的相关约束一直是偏向于对企业员工的约束,较少考虑到外部威胁,尤其是面向数据跨境传输的问题上,虽然GDPR作为最严格的数据保护法规此前对于中国企业的约束并不明显体现,但随着国际大潮流的变化,该法规终将对中国企业的贸易产生巨大影响,各行各业需引起重视。
3.2典型企业分析为验证行业评估标准,以企业数据保护研究为主旨,访谈了国内的三家企业A、B、C,分别对应于金融业,信息技术业,零售业,充分了解各企业的数据保护情况,并在访谈人员的指导下,邀请受访企业严格根据数据保护成熟度评估的三大领域和十二项指标内容,各指标成熟度阶段描述,以及成熟度分值划分方式为自身企业的成熟度情况给出客观谨慎的评分。表5是各企业数据保护成熟度得分情况对比。
表5 A企业、B企业、C企业数据保护成熟度最终评估情况
分析A企业、B企业、C企业数据保护成熟度最终评估情况可知:三个企业得分都或多或少低于或者高于行业标准,如A、C企业得分均明显低于所属金融行业、零售行业的一般水平,而B企业则远超出信息技术行业的平均现状,说明不同行业内不同水平的企业发展参差不齐,但值得关注的是薄弱环节与行业趋势保持一致,即外部威胁是三个企业最大的薄弱领域。对于A、C企业来说,薄弱指标首先均覆盖行业薄弱指标(物理环境缺陷、隐私安全设置、黑客窃取、信息保护行为疏忽、数据跨境传输),但由于企业发展水平的差异,A企业在政策影响和隐私保护技术代差方面也存在不足;而相比之下C企业新增了网络协议漏洞一项,说明这两个企业在业内表现稍逊,需多方面考虑数据保护措施,更近一步向行业标准靠近。但B企业仅覆盖黑客窃取和数据跨境传输两项行业薄弱指标,且成熟度得分远高于行业标准,亦表明该企业为业界翘楚,该企业仅需在保持原有数据保护水平的基础上,加强上述两项指标即可向更高水准的数据保护方向发展。
4 结论与展望
4.1结论本文从企业实际开展业务过程中的数据监管问题出发,以隐私影响评估(PIA)为指南,以能力成熟度模型和数据安全能力成熟度模型为理论基础,借鉴AICPA/CICA 隐私成熟度模型、GDPR成熟度框架以及Intel隐私成熟度模型,运用群决策层析分析及信息熵构建企业数据保护成熟度评估模型,并以国内三个典型行业:金融、保险业,信息传输、计算机服务与软件业,批发、零售业及对应于三个行业的A,B,C企业为例。实践结果发现了企业数据保护的诸多不足之处,同时对于不同发展水平的企业而言,还存在更多的数据保护问题。表明本模型对企业数据保护成熟度评估的适用性,能够帮助企业更加及时、客观、准确地了解其在数据保护方面的成熟度,为数字经济背景下的企业数据运营从保护与合规角度提供了参考。
4.2研究局限本研究为大数据背景下企业数据保护成熟度提供了可量化的评价工具,深化了企业数据安全的理论研究,推进了大数据企业数据安全监管的实践应用。同时本文还存在不足之处,须在今后的研究中加以改进:评估指标及权重的确定主要通过参考文献、企业调研和邀请专家问卷打分,专家群决策等方式确定,尽管采用信息熵来实践主客观权重的加权计算,但依然存在主观偏差,且问卷填写人员、访谈人员和企业对访谈问题的理解程度差异,指标的覆盖范围和数据保护成熟度初始分值的客观性可能有所欠缺,企业数据保护成熟度模型分析方法的适用性还有待提高。