人工智能算力基础设施安全体系架构研究

2024-03-05刘永东

信息安全研究 2024年2期

刘永东张瑶王淼

(国家工业信息安全发展研究中心北京 100040)

1 人工智能算力基础设施的内涵

人工智能算力基础设施是以软硬件基础设施为底层支撑,以算力、数据、算法等资源平台为核心要素,实现算力生产调度、数据开放共享、算法开发调用等功能,支撑人工智能与各领域渗透融合的基础设施体系,技术维度包含人工智能基础软硬件、算力平台、数据集、算法仓库等[1].人工智能算力基础设施由于涉及层次多、分布范围广、接入设备繁杂、用户数量多等特性,其安全问题也面临多重维度,安全风险来源较为复杂.作为人工智能系统运行的基础载体,人工智能算力基础设施应明确其面临的安全种类和风险来源,建立全面有效的安全防御体系,为人工智能系统安全保驾护航.

2 人工智能算力基础设施安全发展的背景与意义

1) 人工智能算力基础设施是大模型应用发展的核心底座.

人工智能作为新一轮科技革命和产业变革的重要驱动力量,正以其强大的赋能作用与各领域加速融合,应用范围不断拓展,行业渗透率快速提升[2].随着以ChatGPT为代表的大模型快速发展,大算力已成为影响人工智能发展与应用的核心因素之一.近年来,人工智能算力基础设施建设取得了长足进展,通过构建人工智能算力网络,保障大模型算力,提供普惠算力,在助力人工智能生态建设、推动人工智能产业持续发展方面发挥着越来越重要的作用.

2) 人工智能算力基础设施迫切需要提升自身安全风险管控能力.

在当前复杂的安全形势下,人工智能算力基础设施由于其属性多样、节点复杂、用户数量多以及人工智能自身脆弱性[3]等特性,在应用过程中已暴露出数据模型窃取、对抗样本攻击、节点不可信等安全问题,带来了更加复杂多样的安全风险,使得人工智能算力基础设施在建设和运营过程中面临更为严峻的安全挑战,同时影响了用户对人工智能算力基础设施的安全信任,阻碍了算力资源力充分释放.

3) 人工智能算力基础设施是提高人工智能安全水平的重要手段.

人工智能技术在快速发展的同时,由于其算法黑箱性、数据依赖性、技术易滥用等特点,导致过程难解释、行为难预测、结果不可控,在应用过程中已经暴露出个人信息泄露、人脸数据滥用、实施诈骗活动、自动驾驶事故等安全问题,随着人工智能与实体经济深度融合,这些风险将会进一步叠加放大,给公共安全、道德伦理、社会治理等带来挑战.人工智能算力基础设施作为人工智能算法运行的基础环境,可通过提升物理、网络、数据、算法等领域安全防范水平,提供安全检测、评估、加固工具,为人工智能安全可信发展提供保障.

3 人工智能算力基础设施安全体系架构

3.1 总体框架

人工智能算力基础设施安全指为人工智能算力基础设施建立和采用的技术和管理层面的安全保护,目的是保护人工智能算力基础设施硬件、软件、人工智能数据模型等不受到破坏、更改和泄露,保障为人工智能系统提供安全的算力和运行环境.人工智能算力基础设施安全具有3重属性:一是基建属性.作为“基础设施”,人工智能算力基础设施应对其稳定性、可用性、可靠性等自身安全提供保障.二是技术属性.作为“AI算力”,人工智能算力基础设施应对部署在其之上的人工智能系统的运行安全提供保障.三是公共属性.作为“公共设施”,人工智能算力基础设施应对人工智能产品、系统和企业提升安全管理能力、降低安全风险、助力合法合规提供安全服务.

人工智能算力基础设施安全不仅应包括传统算力基础设施的物理安全、网络安全、算力环境安全等方面,还应能够保障人工智能的数据、模型不被窃取和攻击,并通过提供相关工具,帮助提升人工智能算法和系统的安全风险应对能力.具体来看,人工智能算力基础设施应从强化自身安全、保障运行安全、助力安全合规3个方面发力,通过强化自身的可靠性、可用性与稳定性,保障算法运行时的可信度与准确度,提升用户的可靠性、可用性、稳定性、机密性、完整性、管控力、认可度和合规性8个方面,筑牢人工智能安全防线,打造可信、可用、好用的人工智能算力底座,营造安全、健康的人工智能产业生态.人工智能算力基础设施安全体系架构如图1所示:

图1 人工智能算力基础设施安全体系架构

3.2 强化自身安全

强化自身安全是指人工智能算力基础设施应保障自身安全、稳定运行.

1) 筑牢传统安全,保障可靠性.

传统安全是人工智能算力基础设施正常运行的基础,包括物理安全[4]、网络通信安全[5]、计算环境安全和数据应用安全等.物理安全是人工智能算力基础设施安全的根本保障,直接影响到人工智能系统的可靠性、保密性、完整性、可用性等,应着重在设备物理安全、环境物理安全、系统物理安全3方面加大安全防护力度.网络通信是人工智能算力基础设施的基础功能,直接关系到用户的远程访问使用和数据传输,应围绕网络结构、访问控制、攻击防范3方面重点进行保障.计算环境安全是指为保障人工智能算力基础设施计算环境不被入侵或植入恶意程序采取的措施,应注重计算环境安全保障,在用户身份鉴别、恶意程序防范、环境安全审计方面重点开展防护.数据应用安全是指人工智能算力基础设施为保护数据在应用过程中不被破坏、更改和泄露而采取的措施,应重点关注数据完整性、数据保密性、备份和恢复.

2) 提升算力网络安全,增强可用性.

人工智能算力网络[6]将各地分布的人工智能算力基础设施节点联接起来,构成多个算力节点间的感知、分配、调度网络,弹性满足全网范围内的算力需求,汇聚和共享数据、模型等人工智能资源,有助于推动构建区域范围乃至全国范围的人工智能产业生态网络.人工智能算力基础设施建设应从节点可信认证、算力网络管理规范、行为审计溯源等方面加强算力网络安全防护,保障人工智能系统全程可溯、多方安全.在节点可信认证方面,应保证每个接入节点在硬件和软件层面实现全流程安全认证,实现全程安全可信;在算力网络管理规范方面,应建立统一安全管理规范,将不同节点纳入统一管理体系,保障算力网络管理安全合规;在行为审计溯源方面,应建设算力网络协同行为安全记录机制,实现多方算力行为可审计可溯源.

3) 注重供应链安全,提升稳定性.

人工智能算力基础设施建设应考虑加强技术自主创新,保障基础软硬件供应链稳定安全[7].一是安全稳定的供应链直接关系到人工智能算力基础设施能否稳定建设和运营,若技术无法自主研发且供应依赖于少数供应商或供应国,一旦基础软硬件断供将对人工智能算力基础设施造成重大打击;二是基础软硬件的安全性直接关系到人工智能算力基础设施安全性,安全的供应链能够防止基础设施软硬件被供应方植入后门或存在其他未知风险.人工智能算力基础设施建设应考虑建立自主标准规范体系,加强技术自主创新,打通技术壁垒,采用具有自主知识产权的通用处理器、人工智能专用处理器、高性能内存、传感器等基础硬件和操作系统、数据库、人工智能框架等基础软件,保障供应链安全,提升基础设施运行稳定性.

3.3 保障运行安全

保障运行安全是指人工智能算力基础设施应提供安全的运行环境,保障人工智能系统的机密性和完整性.

1) 保护数据模型不被窃取,保障机密性.

在安全技术层面,应着力研制人工智能算力基础设施内置用户模型保护技术,重点防御窃取攻击.可在大规模人工智能算力基础设施中,通过高性能加密技术、容器完整性保护、身份与权限分级严格管理等手段,构建全程可信赖的安全运行环境,有效保护数据和模型所有者对其核心资产的所有权.在安全制度层面,应当完善人工智能算力基础设施内部安全管理规章体系.应围绕技术和管理规范并重的核心思想,加强人工智能算力基础设施的内部信息安全规范体系构建,包括建立明确的责任分工机制和授权机制,配备符合条件的人员,加强定期培训,严格确保相关人员按照既定政策、程序和权限履行职责,保障数据、模型在使用、销毁等各环节不被窃取.

2) 防范数据模型遭受恶意攻击,保障完整性.

人工智能算法模型在运行过程中往往会遭受多种形式的恶意攻击,导致模型产生错误的运行结果,若应用于医疗诊断、自动驾驶等领域,可能会对生命财产安全带来严重影响.人工智能算力基础设施所提供的算力服务环境应针对主流恶意攻击风险提供相应的预警和响应机制,如数据投毒攻击、后门攻击、漏洞攻击、对抗样本攻击、深度伪造等的检测与防御[8].

3.4 助力安全合规

助力安全合规是指人工智能算力基础设施应对人工智能产品、系统和企业提升安全管理能力、降低安全风险、助力合法合规提供安全服务.

1) 提供安全检测能力,助力用户加强安全管控力.

人工智能算力基础设施应围绕数据集完整性、准确性以及算法公平性、鲁棒性、可解释性等重点领域,为用户提供安全检测工具,帮助用户提升安全风险识别和管理能力,在数据准备、模型训练、系统运行等全流程检查人工智能产品的安全风险.例如,华为提出了MindArmour安全可信工具包,针对模型鲁棒性、用户隐私风险、数据漂移等功能提供了相应检测工具.鲁棒性检测工具方面,提供了多种对抗样本生成、检测和防御方法以及攻防评测指标,可从恶意攻击角度测评模型以及非恶意扰动角度评测模型鲁棒性.

2) 提供安全评估能力,助力用户提升安全认可度.

人工智能算力基础设施应通过提供自评估工具、引入第三方评估等手段帮助用户对其人工智能产品的安全问题及合规风险开展评估及认证,增强该产品的安全认可度.评估工具可在人工智能系统开发、部署的早期阶段就帮助企业评估其安全管理能力,并帮助用户建立完善且具有针对性的管理制度,通过持续执行和监督促进制度的落实,确保负责任地开发、部署和维护人工智能系统.

3) 提供安全增强能力,助力用户增强安全合规性.

安全增强是指人工智能算力基础设施通过提供一定服务,帮助用户增强人工智能系统的安全合规性,主要包括可信审计工具、隐私计算工具等.安全增强服务可由人工智能算力基础设施自身提供,也可由第三方安全服务商提供,相关工具集成至人工智能算力基础设施,在人工智能系统开发、运行等阶段,用户可以选择不同方向、不同程度的安全增强服务对自身人工智能系统进行安全增强,进一步提高人工智能系统安全合规性.

4 人工智能算力基础设施安全发展建议

1) 加快标准研制,构建基础设施安全与人工智能安全相融合的标准体系.

一是亟需制定人工智能算力基础设施安全相关技术标准并加快推动标准落地,明确人工智能算力基础设施安全的基准指标,使人工智能算力基础设施在能力水平、安全要求等方面满足一定准则,有效保障人工智能算法训练、运行过程中的环境安全;二是加快建设人工智能算力基础设施保障运行安全和助力安全合规等方面的相关标准,帮助提升人工智能算法安全性,促进基础设施安全与人工智能安全相融合,推动形成行业健康发展的良性循环.

2) 加强技术攻关,推动人工智能安全工具与人工智能算力基础设施集成.

一是要加快安全检测、安全评估、安全加固等相关技术工具研发.应围绕数据安全、算法公平、隐私保护等问题突出的领域,大力开发安全技术工具[9],加快推动人工智能算力基础设施安全保障及安全工具技术的创新和演进.二是要推动相关技术工具嵌入和集成到人工智能算力基础设施中,鼓励基础设施企业和算法企业加强合作,通过提供安全的算力基础设施,为算法开发者提供安全、可信的算力环境,通过集成相关技术工具支持模型、数据和应用的安全,有效降低企业部署和应用安全人工智能系统的门槛.

3) 建立管理制度,形成管理手段与技术手段相结合的安全发展良好氛围.

人工智能算力基础设施面临的安全风险多种多样,仅通过技术手段难以覆盖众多风险种类,还需要通过管理手段,将安全策略和安全控制融入到人工智能算力基础设施设计、建设、运行、维护的生命周期各阶段.一是完善安全管理规章体系,明确人工智能算力基础设施建设与运营各方的安全主体责任并推动责任落实,通过开展安全防护检查与风险评估,及时排查各类安全问题隐患.二是人工智能算力基础设施平台可通过提供人工智能安全可信度评估、鼓励安全风险自查等,帮助算法企业发现安全风险并改进,推动人工智能产品研发设计、测试开发、部署上线、运行维护、退役下线等全生命周期安全发展.

5 结语

在政策推动与人工智能发展需求的牵引下,人工智能算力基础设施迅速落地发展,算力网络逐渐形成,在助力人工智能生态建设、保障人工智能产业持续发展方面发挥着越来越重要的作用.然而,人工智能算力基础设施在应用过程中也逐渐暴露出数据模型窃取、对抗样本攻击、节点不可信等安全问题,带来严峻的安全挑战,构建安全的人工智能算力基础设施迫在眉睫.本文从强化自身安全、保障运行安全、助力安全合规3方面提出了人工智能算力基础设施安全体系架构,建议从加快标准研制、加强技术攻关、建立管理制度等方面入手,更好应对和解决人工智能算力基础设施面临的安全问题,打造安全的人工智能算力底座,夯实我国人工智能产业健康发展的基础,为人工智能产业安全发展保驾护航.