人工智能全生命周期安全风险综合评估方法*
2023-08-17张锋军曾梦岐李庆华
石 凯,陈 捷,张锋军,曾梦岐,李庆华,许 杰
(中国电子科技集团公司第三十研究所,四川 成都 610041)
0 引言
随着人工智能技术的不断发展,人工智能的应用也越来越广泛,在人脸识别、语音识别、自动驾驶、视频监控、人机对弈、恶意软件分析等领域都取得了令人满意的成果[1]。如今,人工智能技术的应用正在改变人类社会的发展轨迹,为人们的生产生活带来了便利,但是也催生出了针对人工智能的攻击手段,暴露出其背后的安全风险,人工智能安全风险可能会导致人类社会的重大生命和财产损失[2]。因此,以人工智能本身为视角进行信息安全评估,做到全生命周期、全流转过程“可管可控”[3],从而进一步对人工智能在数据流动、算法框架、模型训练和部署应用等阶段的全生命周期进行安全风险评估十分必要。
保障人工智能安全性的重要手段之一就是进行安全风险评估。针对人工智能全生命周期进行安全风险评估[4],可以发现内部人员、使用数据、训练平台、部署设备和管理体系等方面已存在或是潜在的风险隐患。评估后将存在的风险量化为具体的风险值,使用户更加直观地了解系统中存在的风险,并根据风险等级的大小采取不同优先级的安全措施来预防、控制,以降低安全事件发生的可能性。
1 安全风险评估方法研究
目前,针对人工智能技术安全风险评估的相关研究较少,但关于系统安全[5]、网络安全[6]、信息安全[7]、云计算安全[8]、数据安全[9]等领域的安全风险评估已有大量研究成果并应用于各行各业,主要有定性风险评估、定量风险评估和综合安全风险评估3 类方法。
(1)定性的风险评估方法:主要依靠评估者的经验、知识、技能等,该方法评估结果比较全面。典型的定性分析方法有因素分析法、逻辑分析法、历史比较法等。但其主观性太强,要求评估者本身的素质很高。
(2)定量的风险评估方法:是指运用数量指标评估网信系统的安全风险的方法。主流的定量评估方法有:基于聚类或决策树等机器学习算法的风险分析法、基于图的风险分析法及风险因子分析法等。定量的风险评估方法的评估结果更直观,但存在复杂过程简化后,安全风险因素失真,导致评估结果被曲解的缺点。
(3)定性与定量相结合的综合评估方法:融合了定性、定量的风险评估方法的优点,现今广泛地应用于网信系统的安全风险评估中。但该方法无法定量评价整个系统网信系统的安全风险等级,即无法得出系统整体安全风险状况的级别。
本文首先构建人工智能在准备阶段、训练阶段和部署应用阶段及维护阶段的资产,从训练数据、智能框架、算法模型、管理体系等方面入手,梳理与人工智能相关的安全风险因素,构造资产影响、威胁频度和脆弱性程度3 个维度的评价表,以及对应这3 个维度的人工智能安全风险隶属度等级表,形成具有普适性的人工智能全生命周期的指标体系。其次,针对人工智能安全风险评估技术受主观因素影响较大的问题,本文利用马尔可夫链和信息熵的特点,基于构造的风险熵和权重量化各类安全风险,弱化领域专家主观评价在整体评估中的作用,同时保证了评估的有效性和科学性。
2 人工智能全生命周期安全风险评估指标体系构建
人工智能安全风险是指安全威胁利用人工智能资产的脆弱性,造成人工智能安全事件或造成相关影响的可能性等。而人工智能安全风险评估则是依照评估指标对拥有的资产进行安全风险的评估。因此,安全风险评估指标体系构建主要有人工智能资产划分和人工智能安全风险评估指标体系构建2 个阶段。
2.1 人工智能资产划分
在遵循可靠性、可解释性、鲁棒性和隐私保护等原则的前提下,针对人工智能资产进行安全风险评估[10]。本文梳理的人工智能资产如图1 所示。
图1 人工智能资产
人工智能资产按照人工智能应用过程分为采集、训练和应用阶段。数据采集器是指数据采集的设备和方法;数据集则包含数据的清理、存储、传输、使用和维护等方面的数据[11];软件框架主要指开源的pytorch、tensorflow 等训练框架,以及开源算法,是构建针对特定需求算法模型的必要开发组件;算法模型则是在加入训练数据训练后得到的特定算法或者智能模型;行业应用则是将智能模型具体部署在某个行业进行应用;基础设施是指运行训练后的智能模型所承载的基础设施环境,如电力、散热等。
2.2 评估指标体系构建过程
基于人工智能资产构建安全风险指标体系,构建过程如图2 所示,分为5 个阶段使得指标尽可能典型、全面、科学[12]。
图2 人工智能全生命周期安全风险评估指标体系构建流程
(1)通过查阅梳理报告、文献、书籍、标准、规程等资料,将得到的信息作为基础理论依据。
(2)结合基础理论依据识别、梳理出各阶段影响人工智能安全的主要威胁。
(3)查阅企业资料进行应用行业的调研[12],进一步探究人工智能在该行业的全生命周期应用流程。
(4)识别初步的风险项,选取安全风险评估的关键指标,经过增、删调整进一步确立,若存在分歧或异议则回到第一步,重新执行该过程。
(5)最终确定人工智能全生命周期安全风险评估指标体系。
通过上述指标体系的构建过程,形成了从数据、框架、算法模型、管理和基础设施5 个层面构建的具有普适性的人工智能全生命周期安全风险评估指标体系,评估因素如图3 所示。
图3 安全风险评估因素
梳理后的人工智能安全风险评估因素,其相应的评估指标体系如表1 所示。
表1 安全风险评估指标体系
3 人工智能全生命周期安全风险评估
建立评估指标体系后,对人工智能全生命周期安全风险进行评估,评估过程如图4 所示。
图4 安全风险评估流程
安全风险评估的过程主要分为构建隶属度、确定风险熵、确定权重向量、各类安全风险量化和整体安全风险评估5 个步骤。
3.1 隶属度矩阵构建
结合人工智能的特点及应用模式定义人工智能全生命周期中的资产、风险、脆弱性以及威胁。
(1)资产:人工智能环境中有价值的数据、算法模型、智能框架、应用环境、运行环境等。
(2)风险:人工智能全生命周期中威胁主体利用资产的脆弱性对其机密性、完整性及可用性造成损失或者破坏的可能性[12]。
(3)脆弱性:人工智能全生命周期中被威胁利用的系统缺陷或者漏洞,越脆弱被攻击的可能性越大。
(4)威胁:人工智能全生命周期中有危害的、不能预料事件发生的可能性。
对资产的影响、威胁频度及脆弱性的评估都依据模糊理论对各因素进行剖析处理[12],以构建安全风险因素集和评判集,构建过程如下:
(1)构建安全风险因素集Wi,表示在第i类下有n个风险因素,Wi={Wi1,Wi2,…,Win},其中n是i类人工智能安全风险下风险因素的个数。
(2)构造评判集,即在第i类人工智能安全风险下资产影响、威胁频度和脆弱性的判断集合,即Bc={bc1,bc2,…,bcm},Bt={bt1,bt2,…,btm},Bf={bf1,bf2,…,bfm},其中m为对应判断集中元素的个数。人工智能系统资产影响、威胁频度和脆弱性的评价如表2、表3、表4 所示。
表2 人工智能资产重要程度的评价
表3 人工智能威胁程度的评价
表4 人工智能脆弱性严重程度的评价
(3)构建安全风险评估的评价和评判映射,依据评判集B对因素集Wi各人工智能安全风险因素实行评价,再赋予评语,由此构建的模糊映射:f:Wi→F(B)。F(B)是B上的模糊集,Wj→f(Wj)=(pj1,pj2,…,pjm)∈H(B),其中f表示人工智能全生命周期安全风险因素Wj对评判集中各评语的支持程度,安全风险因素Wj对评判集B的隶属向量为Pj=(pj1,pj2,…,pjm),得到隶属度矩阵:
接下来是对各安全风险进行打分,如通过大量咨询专家、头脑风暴和打分表等形式,对各安全风险依照评价表进行打分评定,求其均值。对评分结果进行归一化处理,处理公式如下:
由式(1)可得该风险j的评语k的隶属度矩阵Pc。m是评语的数量,本方法中m=5。同理能够求出Wj类风险下各风险因素对资产影响、威胁频度及脆弱性的评定矩阵Pt和Pf。
3.2 确定风险熵
在Wi类风险下,根据式(2)得出资产影响、威胁频度及脆弱性的隶属度矩阵后,根据式(3)、式(4)得到资产影响权重、威胁频度权重及脆弱性严重程度的熵值[13]。
pjk(k=1,2,…,m)越逼近相等,其熵值越大,相应的安全风险Wi对其评估的不确定程度越大,当m个状态概率全都出现相等的情况下,表明等概率分布的平均不确定性最大。求极值可得,当pjk=1/m时,达到最大熵[12]Hmax=lnm。使用最大熵Hmax作标准,对式(3)进行归一化,可得该风险向的相对重要程度的熵值[14]为:
3.3 确定权重向量
当pjk(k=1,2,…,m)的值相同时,即pjk=1/m,ej具有最大值1,且0 ≤ej≤1,当ej最大时,表明专家组的评估意见分散,即该风险因素对系统的安全风险评估的贡献不大,因此可用来衡量安全风险项的权重。资产影响、威胁频度及脆弱性严重程度的权重向量的计算式为:
式中:0 ≤φj≤1。同理,可以计算出其他类风险的资产影响、威胁频度以及脆弱性严重程度的权重向量。
3.4 量化各类安全风险
当量化人工智能系统的资产影响时,依据专家组的经验知识给予评价集中每个人工智能安全风险指标项对应的权重,得到权重指标向量X=(x1,x2,…,xn1),式中n1为资产影响的评价集中元素的数量,可得到其威胁为:
同理,人工智能系统威胁频度的安全风险项对应的权重指标向量Y=(y1,y2,…,yn2),其中,n2为威胁频度评价集中评价要素的数量,可以得到其威胁是:
同理,人工智能系统脆弱性严重程度的评判集合指标向量Z=(z1,z2,…,zn3),其中,n3为脆弱性严重程度的评价集中元素的数量,那么其威胁是:
人工智能系统各Wi类的风险为:
式中:k1,k2和k3一般都为1/3,可根据实际需求微调。LR的值越大则风险等级越高,对照表5 进行判定。
表5 安全风险隶属度等级对照表(预设的安全风险隶属度等级对照表)
3.5 量化评估人工智能系统整体安全风险
将马尔可夫链与人工智能安全风险评估指标体系相结合,建立各安全风险类之间的状态转移矩阵Q,即:
式中:状态转移q基于专家组知识得到人工智能安全风险所有可能出现的状态集,并以此构建状态转移矩阵。风险类有6 种,总共18 个风险因子。qij表示风险类Wi相关的安全风险因素(包括其他安全风险类下的安全风险因素)的权重的和。进一步对Q中的元素进行归一化处理,计算公式类似于公式(2),得到归一化后的状态转移矩阵为:
转移矩阵γ和稳态概率能使下列方程成立:
其中,对角线上的元素是指单独发生该安全风险的情况,非对角线上的元素是指人工智能安全风险可能相互转移的情况。因此,人工智能系统的资产影响、威胁频度风险值及脆弱性的安全风险值量化公式为:
结合式(14)、式(15)、式(16)计算可得人工智能全生命周期的安全资产影响、威胁频度风险、脆弱性风险的量化值。最后根据式(10)即可得到人工智能系统整体安全风险值LR。
4 结语
本文基于现有人工智能安全风险评估技术,一方面,提出了一种针对人工智能整体性安全风险评估方法。以模糊数学为纽带,将定性和定量的安全风险评估方法相结合,以信息熵为锚点,构造熵权向量,结合资产影响、威胁频度、脆弱性和构建的安全风险隶属度等级表对人工智能进行整体性的安全风险等级评估,同时保留了对各类安全风险的评价及评估。另一方面,提供了一种面向全局的人工智能安全风险展现方法。通过将马尔可夫链理论应用于各安全风险类,形成各个风险类在稳定状态下的转移矩阵和概率分布,使得人工智能安全风险状态更直观、全面地展现。