可信任的人工智能系统及安全框架浅析

2019-06-06张林超张欣海

中国电子科学研究院学报 2019年12期

张林超,张欣海

(中国电子科学研究院，北京 100041)

1 人工智能的内涵和发展战略环境

人工智能被认为是一门用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学，但具体什么是智能、智能怎么分类、智能程度怎么测量等问题仍然是一个模糊的概念。从什么是智能的角度，人工智能以替代人、辅助人以及超越人为核心，研究人工智能其实也是研究人本身。在人工智能的定义方面，Sandeep Rajani关于智能的定义是“智能是当人们不知道该干什么的时候使用的一种能力”[1]，从这个角度看，人工智能具有不可解释性和不可预见性，与“需要可检验的解释和对客观事物能够进行预测”的传统科学相悖，是一种颠覆传统科学观的新兴科学。在人工智能的分类方面，部分观点将人工智能分为用于在特定领域有限模拟和发展的弱人工智能、能够类脑的自主学习和创新的强人工智能以及超越人类现状的超级人工智能[2]。更具体一点，本文认为人工智能的分类可以参考霍华德·加德纳的“多元智能理论”[3]从人类学的角度将智能分为相对独立的八种认知领域：语言智能、节奏智能、数理逻辑智能、视觉空间智能、身体动觉智能、自省智能、交流智能和自然观察智能。从人工智能程度的测量来看，可以参考图灵测试，将人工智能与人隔离，定义一个测试功能域和完成指标，对比人工智能与人的操作结果来对人工智能进行量化评价。目前来看，人工智能程度的测量基本上都是在对抗、博弈环境下进行的，比如：Google的AlphaGo围棋测试、军事领域的自主作战训练系统等[4]。

近年以来，随着以深度学习为代表的各种人工智能算法的涌现、以大数据为驱动的数据爆炸和以GPU为标志的算力跃升，人工智能逐渐接棒云计算、大数据成为引领人们观念变革和掀起新一轮技术发展浪潮的新热点概念，甚至被认为是第四次工业革命的核心标志技术。世界主要国家纷纷部署和发布了人工智能领域的战略规划(见表1)，一致认为人工智能作为引领未来的战略技术，将在军事、科技、经济、民生等领域带来方方面的变革，是国家实力实现跨越式发展的重要机遇。目前，美国的人工智能总体科技实力位居世界首位，中国在人工智能应用领域增速明显，部分领域影响力已经超过美国，但是，仍然存在缺少原创成果、多数算法依赖开源等问题。

表1 世界主要国家的人工智能相关战略

2 人工智能可能带来的安全威胁

作为一项颠覆性的科学，人工智能带来的应用具有可复制、不易损耗、反应时间极短、无情绪化影响等特点，能够给全社会的发展带来便利和升级，但同时，也带来了对传统秩序的颠覆，甚至能够通过变革军事优势、信息优势以及经济优势来影响国家安全[5]。美国白宫在2019年2月发布的《美国人工智能倡议》中认为美国在人工智能领域的持续领导力对于维护美国的经济和国家安全至关重要，我国国务院发布的《新一代人工智能发展规划》提出要把人工智能发展放在国家战略层面系统布局、主动谋划，有效保障国家安全。从宏观层面来说，人工智能引发的链式突破正在进一步丰富国家安全的内涵，使得影响国家安全的内外因素进一步复杂和多变，人工智能将在政治安全、军事安全、社会安全等方面带来直接或者间接的威胁；从微观层面来看，需要以维护数据安全、算法安全、基础设施安全、应用安全等为目标建立人工智能系统的安全防御体系，保障人工智能系统不被攻击和利用。

政治安全威胁。以智能化分析为核心的舆情政治战能够直接危及政治安全，通过培养虚拟意见领袖、智能控制舆论传播、针对性智能伪造谣言、伪造篡改政要音视频言论等手段，能够产生和平时代最大的政治安全威胁。2018年曝光的剑桥分析公司被广泛认为通过人工智能技术来进行精准的政治营销，虽然实际的政治影响效果未被证实，但是行为研究、数据分析、精准广告的营销模式已经成为诸多互联网电商公司提升业绩的法宝，政治领域的智能“暗战”距离我们并不遥远。

军事安全威胁。在军事领域，美军“第三次抵消战略”已经把军事智能科技作为最关键的技术领域，人工智能在无人装备、辅助增强、协同作战、平行训练等方面带来新的作战能力和作战方式，推动未来战争走进智能化时代，人工智能的差异将带来军事作战能力的不同，人工智能领域的弱势将直接造成军事实力的劣势，引发军事安全威胁。在无人装备方面，无人机、军用机器人、自主攻击弹药等无人自主装备正在革命性转变军队组成，在情报侦察、清障、排爆、补给等方面减轻士兵负担甚至替代士兵、保护部队[6]。在辅助增强方面，人与人工智能的深度融合在超级人工智能出现之前是主要的装备发展趋势，人工智能技术的支撑将弥补人类在反应、效率和可持续性上的不足，在海量信息来源上预生成可供决策的情报信息、决策选项和效果评估，增强人的智能。在协同作战方面，集群作战、人机协同、跨类别协同等作战模式不断涌现，对作战中的体系化能力要求不断提升，算法为核心的战法制胜将成为关键。2017年6月，美国密歇根国民警卫队在“北方打击”演习中，陆军官兵与遥控侦察车、无人机、无人驾驶车辆等联合开展行动，展现了未来智能协同作战的雏形。在平行训练方面，人工智能自我博弈、迭代升级的特点将带来军事训练模式的本质变革，一方面智能化虚拟训练环境将大大加快和加强对作战人员战术素养的培养；另一方面随着智能化作战系统成为作战主力，训练模式将演变为算法的升级，AlphaGo到Alpha Zero式的瞬间跨代升级将成为常态，在战争未开打之前可能就注定了结局。

社会安全威胁。在人工智能技术推动经济社会从数字化、网络化向智能化加速转型升级的转折点，以下方面的变化很可能带来社会安全威胁：人工智能带来劳动力结构的根本变化。人工智能“替代人、辅助人、超越人”的发展目标必然带来劳动力的被替代，重复性体力劳动者、简单体力劳动者将率先被替代，劳动力结构的变化与应用技术的智能化水平直接相关。一旦单纯的技术发展与劳动力培养脱节，必将带来严重的社会问题。《美国人工智能倡议》已经指出，必须培养当代和未来的人工智能劳动力，使其具有智能化时代的必须技能。人工智能带来法律和道德难题。一方面，自主无人人工智能系统的缺陷有可能直接危害财产安全乃至人身安全，但这种缺陷往往具有偶然性且无法判断设计者的主观故意性，造成法律追责和社会治理难题。波音737 Max飞机直到第二次坠机才引起对机型设计可能存在缺陷的怀疑，在未来，人工智能的不可解释性将给事故中使用人员与设计人员的责任鉴定和责任划分带来更大的难题。另一方面，人工智能技术发展带来的个性化服务在带来巨大便利的同时，也可能带来隐蔽的、复杂的道德规范问题，导致公众权益受到侵害。例如，怎样处理好数据利用和隐私保护之间的关系已经普遍成为各国政府在人工智能治理方面面临的一个首要问题。还有，部分电商平台已出现“大数据杀熟”现象[7]，即同样的商品或服务，老客户看到的价格反而要比新客户贵出许多。人工智能带来依赖性退化问题。技术的进步在推动人类社会发展的同时也可能带来个人能力的退化，科技带来的便利容易使得人类产生依赖性，在一定程度上带来创造性和独立性的丧失。例如，智能化新闻推送服务固然可以自动为用户筛选掉不感兴趣的新闻，却也可能带来知识自闭，减缓进步。同时，数据的持续积累可能带来信息过载和隐私丧失问题，算力的不断增强可能带来能源消耗问题，算法的迭代进化可能带来隐藏的认知欺骗甚至精神控制问题等。

此外，随着人工智能的进一步发展，在数据安全方面，一方面传统的信息窃取、信息破坏、信息伪造等手段将持续造成数据安全威胁并扩大其影响范围，另一方面，新的智能化数据推理、数据关联手段的涌现将导致数据安全威胁进一步扩大，数据泄露的渠道更为多样和复杂；算法安全方面，随着算力的增加和破解算法的智能化，应用于人工智能系统的算法将更容易被发现漏洞加以利用，而核心算法的安全将直接影响人工智能系统的安全；基础设施方面，网路基础设施、大数据基础设施、计算基础设施等任一环节的安全都会对人工智能系统的可靠性产生影响，从逻辑域攻击向物理域攻击转化的跨域攻击的可能性也将大幅提升；应用安全方面，随着人工智能在各个领域的渗透和应用，在传统的应用领域人工智能的不可解释性带来不确定风险和安全伦理问题，在涌现的人工智能新应用领域，由于缺乏安全评测体系，需要通过权限机制、边界机制等严格限定人工智能的作用领域。

综上，科技的发展从来都是一把双刃剑，一旦人工智能被利用或者因为自身的演化形成错误和问题，在政治、军事、社会方面都将带来诸多新问题，因此，亟需建立人工智能安全框架并发展可信任的人工智能系统，一方面制定人工智能的行为规则，另一方面保障人工智能不被对手利用。

3 人工智能安全框架

确保人工智能安全、可靠、可控已经成为世界各国发展人工智能技术的普遍共识，其中，人工智能安全是人工智能治理的重中之重。人工智能安全一方面指人工智能自身不会构成对人类的生命、财产、环境造成可能的损害，另一方面指人工智能不会受到系统破坏、信息窃取、决策误导等攻击。美国国际互联网安全系统公司(ISS)于20世纪末提出了P2DR(Policy Protection Detection Response)、P2DR2(P2DR+Restore)等安全模型，将信息系统安全解释为在整体安全策略的指导下，打造防护、检测、响应、恢复的动态安全循环。人工智能系统作为需要进行长期持续安全防护的信息系统之一，适用于该安全模型，但也有自己的特点：一是传统的安全检测大多以异常行为作为判断系统安全的特征，但人工智能的不可解释性和自主智能性往往导致异常行为更加难以判断，人类判断的异常行为有时也可能随着时间推移被证实是误判；二是安全响应手段上无法保证及时闭环，一个出错的人工智能系统也许并不存在短时间内被矫正修复的可能，要么继续使用，要么更换其他手段，在响应手段上应更聚焦于应急处置而不是矫正恢复；三是在策略上应注重自主性和安全性的平衡，传统的安全策略关注“怎样不出错”，人工智能系统的安全策略更应关注于“不能做什么”。考虑到以上特点，本文认为人工智能安全框架在P2DR模型的基础上应加入安全边界的概念(见图1)，并对各要素的内涵进行了重新定义。

图1 人工智能安全框架

3.1 安全策略

传统的安全策略通常是指基于角色、身份、规则制定不同的授权机制和控制规则，往往由独立的安全管理模块制定并实施。人工智能安全策略由于需要取得自主智能与安全风险间的平衡，应采用“内生规则+管理措施”的方式来制定安全策略。内生规则在系统设计之初即通过专家调查、蒙特卡洛仿真模拟、综合分析等风险分析方案来制定“系统禁区”，从根本上制定人工智能系统的安全基因。管理措施在人工智能系统运行的过程中，明确在安全防护、安全检测、安全响应过程中应采取的应对和处置措施，建立数据流向和权限控制的多级授权机制，构建能够不断优化和扩展的动态防御体系。

3.2 安全防护

根据人工智能系统中不同的安全防护对象，可以分为数据安全防护、算法安全防护、基础设施安全防护、网络安全防护和应用安全防护等，其中：

(1)数据安全防护：要求保护人工智能系统在训练和推理过程中收集、传输、存储、处理的数据不被泄露、篡改和非授权分析，可以通过数据加密、访问控制、脱敏分析等措施予以保障。

(2)算法安全防护：要求通过代码审计、漏洞发现、模拟测试、行为监测和功能隔离等手段，最大化提高算法的有效性、准确性、健壮性、可解释性。有效性和准确性保证算法有正确的目标并完全按照目标函数执行，健壮性保证算法不易被攻击、干扰和利用，可解释性为算法提供有效的监督和审查手段。

(3)基础设施安全防护：要求保障人工智能系统中智能采集终端、计算设备、存储设备、基础软件等不被攻击、不被制约、可靠运行。可采用的安全措施包括硬件安全增强、访问控制、应急备份、漏洞修复和主动防御等。

(4)网络安全防护：面向网络化、分布式的人工智能系统，要求在网络结构优化、网络边界安全防护、通信链路保障、安全监测审计等方面对传统网络攻击手段和规模化、智能化的新型攻击手段进行防御，保证系统的可用性和完整性。

(5)应用安全防护：要求对人工智能应用构建全生命周期的安全防护体系，在人工智能应用开发过程中进行代码审计并最大化构建可解释性模型，在人工智能应用运行过程中实时监测并定期进行漏洞排查，降低人工智能可能带来的直接和间接威胁，避免人工智能被应用在不法活动和不当场景中。

3.3 安全检测

人工智能安全检测分为主动安全检测和被动安全检测。主动安全检测针对网络攻击、异常行为、非授权访问以及隐蔽渗透等行为进行主动扫描，采用异常行为特征检测、隐蔽过程攻击检测、黑名单管理等传统手段识别潜在的安全风险。被动安全检测是配合安全边界设置安全风险触发点，一旦触发点条件满足，即对安全风险进行预警。为了最大化发挥人工智能的自主性，安全检测应以被动安全检测为主，但随着模拟攻击、逃避攻击等对抗样本攻击[8]手段的不断涌现，升级主动安全检测手段防御对抗样本攻击也刻不容缓。

3.4 安全响应

由于人工智能的自主性、不可解释性特征，相较于传统系统，人工智能安全事件一旦发生，很可能难以在短时间内找出问题所在，必须制定较为完备的、能够应对长周期调查的安全响应策略。主要包括：一应建立响应决策体系，预先设置安全事件处理规则和决策流程，在安全事件发生时第一时间应用以人为主的决策体系，例如，通过设置切断开关(kill switch)[9]以争取响应决策的领导权。二应设置响应预案，针对不同的安全风险事件制定相应的响应预案，开展备份恢复、系统替代、影响分析等工作，并通过定期的验证和演习保证预案的有效性。三应建立评估反馈机制，依据安全事件处理结果和事件过程中的数据监测对响应恢复方案的适用性和有效性进行评估，形成相应方案的反馈闭环，不断改进和提高。

3.5 安全边界

人类社会的发展规律是从人治社会向法治社会转变，以法律条文的形式明确什么可以做、什么不可以做，既保障公民的权利，又对公民行为进行规制。在日常生活中，我们也总会遇到机器操作规程规定“容器内和危险潮湿地电压不能超过12 V”，施工规范规定“架板要低于外墙20 cm”等类似情况，用于规定操作必须遵守的安全规章和程序，明确了禁止性规则。与之对应的，人工智能安全也应该通过设立完善的条文，“以法代管”。安全边界即制定人工智能的“法”，明确人工智能系统的安全性规则，规则禁止的条件一旦触发则立即停止，规则未禁止的则给予安全监管下的相对自主空间。安全边界应包括定性规则和定量规则，定性规则明确定义不安全行为，定量规则根据对应参数和行为的比率分析、趋势分析、结构分析、对比分析以及模型分析等[10]制定可允许的活动空间，界定安全边界的“宽度”。

4 可信任的人工智能系统

从某种意义上看，人工智能作为一项以模拟、扩展、延伸人作为核心的技术，保证人工智能安全其实可以看作一项管理科学，人工智能安全管理的终极形态应该是“人员安全管理”系统。从安全管理的角度，一是要预防为主，因此需要充分考虑可能发生的不安全事故或者错误，建立容错机制，有效控制错误和不安全因素的发展和扩大；二是要重在控制，一方面需要严格控制不安全因素的影响范围，需要引入权限机制，另一方面要从安全风险的原理出发，实现对系统运行状态的控制，即需要通过可解释机制实现全方位的过程控制和轨迹控制。

在当前阶段，人工智能的发展一方面取决于人工智能带来的便利性，另一方面也取决于人工智能所能带来的信任感。随着人工智能不断渗透人类社会，信任将成为人工智能发展的瓶颈。可信任系统可以分为两类：一类具备可靠性，即能够最大可能的保证连续不出错；一类具备安全性，即虽然不能保证连续不出错，但是可以通过自纠正、错误处理等手段保证不会造成灾难性损害。可信任的人工智能系统应该结合保证可靠性和安全性的各种手段，实现信任的最大化。

4.1 容错机制

容错机制在一定范围内允许或包容犯错情况的发生。如果把人工智能抽象为人，给予其极大地自主权，有时候并无对错之分，解决争端最有用的方法即选举制度。选举制度一方面给予了每个参与人的自主决策权利，另一方面可以保证符合多数参与人的权益。一个初步的容错机制如图2所示。

图2 人工智能容错机制

由不同的核心算法设计形成的人工智能系统分别命名为AI#1，AI#2，…， AI#N，将每个人工智能的决策结果输入到N to 3选择器，由其选择其中三个进行投票决策。之所以选择三个进行投票的原因在于：人工智能作为一项信息技术为核心的系统，不可避免的存在同质性，一定情况下不同的输出能够带来的作用远比同样的输出要大，选择三个能够最大化特例作用并形成进一步优化的反馈。同时以选择器输出替换决策出错的人工智能进行分析可在不影响系统正常运行的情况下实现热备份响应机制,即在不影响系统正常运行的情况下剔除决策出错的AI，将其更换为其它的热备份AI。N的增加与减少则可以保证系统的灵活性和可扩展性。人工决策具备对人工智能的矫正作用，类似于选举制度中的一票否决制，保证了人工智能是为人服务的。此外，容错机制通过将结果反馈至选择器和每个人工智能系统可以实现对人工智能的进一步优化。结果反馈可以引入惩罚机制，形成进一步促进人工智能安全的惩罚回路。

4.2 权限机制

人工智能全面融入社会生活的各个方面固然是发展趋势，模块化的分类分级权限保护也是保障人工智能系统安全的重要手段。不同成熟度的人工智能用于不同的场景，对于整个系统的安全性方面有不同的价值，合理平衡安全风险和人工智能的自主性，是采取权限机制的核心思想。人工智能系统应该是多个智能算法的模块化集合体，也需要建立相应的“岗位职责和权限管理制度”，对各个模块的职责和权限进行明确规定，确保每个算法和模块有章可依、有责可究。

4.3 可解释机制

对人工智能的不信任很大一部分源于人工智能算法的不可解释性，深度学习模型常被称为黑盒模型[11]，同时，用于训练人工智能算法的海量数据往往超出了人类的能力范围，使得人类无法回答人工智能“为什么”的问题。人工智能可解释机制的本质在于将人工智能的形成机制与人类的认知逻辑形成映射，可以分为对过程的解释和对结论的解释两个层级。对过程的解释是致力于追踪预测过程的形成，确保每个环节的可理解性。对结论的解释是在对过程解释暂时无法达成的情况下，通过常识和推理给出能够自圆其说的解释。目前，可解释性人工智能的研究仍在初级阶段，西北工业大学的何华灿教授[12]提出要通过以概率论为基础的柔性逻辑建立人工智能的可解释性，复旦大学的肖仰华教授[13]认为通过知识图谱的概念、属性和关系能够为可解释性人工智能带来重大机遇。