人工智能发展中的安全风险防范体系研究
2023-09-07赵欣莹
赵欣莹
(河南科技学院,河南 新乡 453003)
0 引 言
随着互联网和计算机硬件设备的飞速发展,存储和算力得到显著提高。数据呈指数级快速增长,使得人工智能应运而生,旨在探索人类智能的潜在规律,让机器能够模拟自然智能的行为,且已在各大领域均有突出贡献。然而,随之而来的安全问题受到各行各业的关注,迫切需要开发安全的人工智能风险防范体系,规避系统安全风险,保障人工智能健康发展。
1 人工智能安全风险
随着电子产品的普及,越来越多的个人信息被存储于各种应用平台。人们在大数据时代是透明的,个人隐私安全成为隐患。人工智能系统从复杂且庞大的数据中挖掘有用信息,可应用于行业规划、风险评估、生物医学和国防军事等领域,蕴含着巨大的经济价值、科技价值以及战略价值,对系统安全防范带来了挑战。人工智能系统的安全部署、攻击防御和监管体系贯穿整个生命周期的框架阶段、设计阶段、部署阶段、维护阶段以及废弃阶段,而且在每个阶段都存在安全风险隐患[1]。
(1)框架阶段。实现需求的整体框架设计是系统的基础,决定人工智能系统所需解决的问题。此阶段会面临需求是否符合国家法律法规和社会约定俗成等风险。
(2)设计阶段。将设计的框架用具体的算法和技术实现,并检测系统是否能够达到预期效果。此阶段涉及数据风险和模型风险等。算法设计时应考虑敏感数据泄露、数据篡改和数据投毒等问题的处理策略,构建健壮的、鲁棒性强的算法,增强模型抵御风险的能力。
(3)部署阶段。系统框架在指定的真实运行环境和硬件设施中搭建的过程。此阶段涉及环境风险和平台风险等。系统设计时应检测硬件环境和软件平台是否安全可靠,为系统部署构建可信执行环境。
(4)维护阶段。保障系统的正常运行,实现系统的故障检测、故障处理和恢复。此阶段涉及恶意攻击风险和系统风险等。系统维护应考虑对抗样本攻击、算法逆向攻击、算法漏洞攻击、算法后门攻击和模型窃取攻击等攻击的防范措施,以及整体健康评测、安全监测和修复、安全访问控制和合法反制维权等方面的应对措施,使系统具备检测、防御和恢复的能力。
(5)废弃阶段。在系统完成任务停止工作后,需要对系统和数据进行回收处理,避免随意丢弃引起的数据泄露和模型泄露等风险。
2 人工智能安全风险防范体系构建
将相关安全技术贯穿人工智能系统的生命周期,构建人工智能安全风险防范体系。从安全技术的层面,可分为业务安全风险防范、数据安全风险防范、模型安全风险防范以及系统安全风险防范。
2.1 业务安全风险防范
设计的系统应遵守与符合国家法律法规、行业规则和社会伦理。人工智能技术可以从大数据中挖掘有价值的信息,辅助任务做出正确的决策。数据、模型和系统背后,蕴含着巨大的经济效益。高效益意味着高风险,而现有的法律对有效规制信息数据驱动的人工智能带来的侵权问题存在局限性,应完善司法体系对数据盗取、模型窃取以及系统非法攻击等行为的管理和惩治,保障用户和企业的合法权益[2]。
2.2 数据安全风险防范
数据在人工智能系统中占据重要地位。模型的质量、训练效率和泛化性能与数据的质量、分布及编码方式等密不可分。现今计算机任务所要处理的数据呈现体量大、多样化和价值密度低的特点,并多趋向于半结构化和非结构化形式,为数据安全传输、存储和处理带来了挑战。为保障非公开数据的隐私安全,需搭建可信执行环境,采用联邦学习、数据加密、数据清洗以及数据脱敏技术等提高数据的机密性。
2.2.1 可信执行环境
为使数据处于可靠的网络环境中,采用存储区域网络技术,为数据传输建立独立的专用网络,降低被攻击的风险。数据存储采用独立磁盘冗余阵列技术,实现数据的并行读写、镜像和校验,能够提高大数据的存取速度,实现数据的备份,防止数据丢失带来的损失,在一定程度上解决数据的存储错误问题。为防止重要数据的篡改,采用区块链技术,对每个电子文件生成唯一的哈希值。文件篡改将导致哈希值改变,需征求集群中半数以上的节点同意并完成所有节点的信息同步,即篡改数据难度大。
2.2.2 联邦学习机制
在传统的集中式学习中,计算资源统一控制和存储,导致庞大的数据体量存在风险集中的隐患。分布式学习虽采用非集中式独立组织管理,但在安全攻击和非授权访问方面存在安全风险。为实现大数据模型的计算和数据隐私安全的维护,联邦学习机制的设计目标旨在保障信息安全、模型安全以及参数安全[3]。
2.2.3 数据加密
对数据进行加密计算,做好数据泄露和窃取的最后一道防线。数据加密技术是通过加密算法实现的,公钥用于信息加密,发送给发信方,而私钥由收信方保存。即使公钥被截获,截获方也无法仅使用公钥解密[4]。数据加密技术应用广泛,如在图像处理领域中,人脸识别技术使用的是非结构化图像数据。在身份认证等场景中,将人脸数据加密处理,可防止通过盗取滥用用户的人脸信息而对用户造成损失。针对不同类型数据的特点,在数据的传输和存储中对数据信息进行加密计算,建立安全可靠的保护机制。
2.2.4 数据清洗
数据清洗是将脏数据清洗转换,对问题数据进行监测和重构修复。需要先检测出原始数据中的问题数据,分析确定清洗算法,处理问题数据,最后替换原始数据中的问题数据,得到高质量的输入数据,可解决数据的缺失值、异常值、重复值以及一致性等问题,对数据进行规范化处理。问题数据检测出的攻击性数据,如投毒数据、对抗样本攻击数据等,需重构修复或删除,并且可以通过分析处理收集的大量、完备网络行为数据,提取降维、降噪且具有攻击行为数据的固有特征用于训练模型,实现对网络行为的实时异常行为检测。
2.2.5 数据脱敏
数据脱敏是对大数据中的敏感数据进行保护的有效方式。对敏感数据进行隐私计算,限制数据使用方不能直接读取原始数据[5]。数据失真技术指在原始数据上加入噪声等干扰信息,隐藏真实数据,使用时再重构数据。匿名技术针对标识符进行处理,使得入侵者不能从多方窃取的数据中还原出个人的标识信息,即以牺牲标识信息的方法来保护敏感数据安全。关联规则隐藏技术将不被公开的数据规则隐藏,数据挖掘等算法使用统计学的分析技术,如关联性分析、聚类和分类等,从数据中挖掘隐含的信息。隐藏关联规则使得不能通过相关技术挖掘敏感信息,同时不影响公开数据的认识发现,可以阻止不法分子利用数据关联规则盗取用户个人隐私信息。
2.3 模型安全风险防范
在人工智能技术发展过程中,数据挖掘、机器学习和深度学习等新技术不断涌现,可从海量数据中快速获取有价值的信息,帮助人们做出正确决策。算法不仅要具备良好的处理分析能力和泛化性能,还要具有健壮性和安全性。
2.3.1 模型鲁棒性增强
在深度网络等模型训练过程中,需要一定规模的数据量。数据增广在一定程度上可扩展现有数据集,使得参与训练的数据集更加健壮。数据增广的方式多样,如在图像数据中可对原始图像旋转、镜像、切割、尺度变化、缩放、颜色空间变换和加入噪声等,由增广后的数据集训练得到的模型将具有更好的泛化性能,应对不同的测试集,具有更稳定的效果,增强了模型的鲁棒性。健壮的模型可以在一定程度上抵御外来的攻击。
2.3.2 模型恶意攻击防范
(1)对抗样本攻击防范。对抗样本的攻击是在原始样本上添加微小的干扰信息,会影响模型的决策,使模型出错。攻击者可以获取模型算法和参数的攻击是白盒攻击,不获取模型算法和参数的攻击是黑盒攻击。不论黑盒攻击还是白盒攻击,攻击者都可以与系统交互。攻击者分析获取的系统信息,生成针对该系统的对抗样本。将对抗样本与正常样本一起输入到模型训练中,将直接影响模型的准确率,引导模型做出错误的决策。对抗样本攻击的防范分成2 个方面。一是增强模型的鲁棒性,将生成的对抗样本加入正常训练集进行对抗训练,可提高模型的鲁棒性,使得模型能够在已知的对抗攻击中有较好的效果。对抗样本的生成可使用梯度实现,也可利用削弱模型梯度的方式防御攻击。对抗样本是通过加入噪声实现的,数据预处理环节的降噪处理可在一定程度上削弱噪声的影响。二是对抗攻击的检测,可通过原始样本和降噪后样本对模型输出结果的差异检测来实现。对于差异较大的样本,需要进行数据清洗处理。
(2)算法逆向攻击防范。算法逆向攻击可分为成员推理攻击和属性推理攻击2 种。成员推理攻击是一个二分类问题,攻击者分析窃取的数据,可以推理出数据是否存在于训练集。属性推理攻击是攻击[7]。防御成员推理攻击可对数据进行正则化处理,防止模型产生过拟合,避免从数据在预测结果上的好坏来判断是否是成员数据。
(3)算法漏洞攻击防范。人工智能是让机器可以拥有像人类一样的智能,而现有的技术还未能实现。因此,对于模型攻击,算法不能完全识别。即便是人类,也无法完全识别。若要求算法完全可靠,则需穷举所有的输入,产生正确的输出,但是在实际应用中是不能实现的。算法漏洞攻击的防范,需在系统中引入攻击算法和防御算法。攻击算法用于模拟外部攻击行为,防御算法用于检测攻击行为,并对不同的行为做出相应的反应,确保算法安全。
(4)算法后门攻击防范。开发算法时,程序员会创建后门,方便测试和修改算法。若在算法发布时未处理后门,会被攻击者作为攻击算法的有力武器。后门攻击有多种类型,如数据采集时采集到被投毒的数据用于模型训练,生成被投毒的模型,会对被投毒的数据产生攻击者预期的结果。在算法由于资源或技术原因需要外包或是使用外部的预处理模型时,也会存在第三方后门攻击的风险等。算法后门攻击的防范,需要消除算法中隐藏的后门,完善处理在系统开发阶段因开发需求预留的后门。
(5)模型窃取攻击防范。模型窃取攻击典型的攻击方式是生成原模型的替代模型。该替代模型通过窃取原模型的输入数据和输出数据训练得到。模型窃取攻击的防范中,模型相关的输入数据、参数和预测结果等数据可采用加密算法加密存储,连同密钥放在区块链中,避免数据篡改。
2.4 系统安全风险防范
2.4.1 系统评测
检验决策的合理性,结果是否符合常理等;检查模型的公平性,是否因为训练数据的不均衡导致结果的偏差等;检查模型的训练程度,是否出现严重的过拟合现象,降低泛化性能;检查系统的安全性,标定安全等级;检验系统是否偏离既定目标,是否按照框架和设计需求运行。
2.4.2 系统监测
系统中应设置安全监测和处理机制,实现对数据攻击、模型攻击和系统攻击的自动检测,并能做出相应的防御行为,动态实时监控系统,及时处理和修复故障,保障系统正常运行。
2.4.3 访问控制
对于系统的管理者和使用者等不同身份、不同类别的人员,分配不同的权限,对应不同的身份认证。对用户非正常的访问和请求加以限制,设立安全熔断机制。
2.4.4 主动进攻
系统被攻击时要保存好证据,用法律法规维护合法权益。例如,在模型窃取中,可在模型的输出结果上加上隐形水印,替代模型学习留下证据。
3 结 论
人工智能的数据、模型和系统具有巨大的经济价值,其构建和维护需要耗费大量的成本,因此会受到各种目的的威胁和攻击,存在重大安全隐患。本文分析人工智能系统生命周期的框架、设计、部署、维护和废弃5 个阶段所遇到的安全风险,使用相应的安全技术解决风险隐患,并从业务安全、数据安全、模型安全以及系统安全4 个维度构建人工智能系统安全风险防范体系。