APP下载

人工智能安全治理挑战与对策

2022-04-11彭长根

信息安全研究 2022年4期
关键词:人脸识别算法人工智能

彭长根

(贵州大学贵州省大数据产业发展应用研究院 贵阳 550025)

(贵州大学公共大数据国家重点实验室 贵阳 550025)

(贵州大学计算机科学与技术学院 贵阳 550025)

(贵州大学密码学与数据安全研究所 贵阳 550025)

(peng_stud@163.com)

从1945年第1台电子计算机诞生以来,信息技术迭代迅速,互联网、云计算、大数据、人工智能和区块链等新一代信息技术不断涌现,同时也催生出新产业、新业态和新模式.人工智能的核心技术是通过机器学习来模仿人类智能,以实现复杂的决策过程.人工智能发展历程几经起伏,近几年由于机器学习及其硬件技术的突破性进展,使人工智能在众多的领域获得应用,如自然语言翻译、语音识别、人脸识别、自动驾驶和辅助决策等.然而,人工智能深度应用伴随而生的是安全和伦理的严峻挑战,究其原因:一是机器学习本身存在潜在的技术风险,其主要是针对数据、算法和模型的攻击,具体包括数据投毒、隐私挖掘、对抗样本、算法后门和模型逆向等攻击.这些攻击一旦被黑客利用可能会引起严重的后果;二是人工智能被无序应用会加剧社会风险,如智能杀熟不良应用、人脸识别滥采滥用、推荐算法监管缺失、广告新闻虚假合成、不良信息传播扩散、搜索排序误导、消费行为诱导和个人隐私挖掘等,这些问题会严重扰乱市场和社会秩序;三是特定场景的人工智能应用会引发伦理道德风险,如机器人、辅助判案、医疗诊断和无人驾驶等应用可能会导致责任边界模糊,特别是歧视性算法引发偏见和不公平、不透明训练数据会使决策偏离、成瘾性算法会诱导青少年沉迷于网络游戏等,这些都会引发诸多伦理道德挑战.针对这些问题,本文首先详细分析其产生原因及现状,然后从技术、标准和法律几个维度提出人工智能安全治理解决方案及建议.

1 人工智能发展的曲折历程

最早提及机器智能的是计算机模型的奠基者图灵(Turing),他在1950年的《计算机器与智能》一文中聚焦“机器能思考吗?”问题,构造了一个“图灵测试”,该测试通过1个人和1台机器的对话过程,以确定出被测试者是人还是机器,但最终并未获得意想的结果.人工智能概念是1956年在美国达特茅斯学院的一次会议上被正式提出.后几经反复,从概念诞生后的10余年时间里,人工智能在数学和自然语言上的初步应用成果使人们对人工智能的前景充满了信心,但在解决更具有挑战性问题时接连的失败使预期落空,人工智能第1次走入低谷;直至20世纪70年代中期,通过模拟人类知识和经验实现推理决策的专家系统出现及其在理论上的突破,并在诸如医疗诊断方面取得成功应用,再次将人工智能的研究推向新高潮.然而,专家系统存在的理论缺陷、技术瓶颈、应用狭窄和成本受限等因素又一次制约了其发展,人工智能在20世纪90年代中期再度陷入低谷;直到本世纪,机器学习和深度学习的进展及算力硬件实现、大数据与人工智能的融合,推进了人工智能在众多领域的应用,使其成为全球关注的热点,人工智能再一次被推向高潮.图1是人工智能发展的反复历程:

图1 人工智能发展历程

2 新一代人工智能安全治理挑战

信息技术的发展历来就是一把双刃剑,伴随人工智能发展的另一面就是安全挑战.以机器学习和深度学习为核心的新一代人工智能技术由于自身潜在的技术漏洞和大规模应用,意外地衍生出各种安全风险和社会伦理问题,而且有愈演愈烈之势,主要包括:人工智能潜在技术风险、人工智能过度滥用的社会风险和人工智能衍生的伦理道德困境.

2.1 人工智能潜在技术风险

新一代人工智能的核心是通过机器学习来模仿人类智能以实现复杂的决策过程,这就导致先天性的算法黑箱与不可解释性问题,从而引发针对数据、算法和模型的安全攻击,包括数据投毒攻击、对抗样本攻击、模型逆向攻击、逃逸攻击和成员推理攻击等一系列问题.这些攻击一旦被黑客利用,势必引起严重的后果.在此简单罗列人工智能潜在的一些技术风险,如图2所示.

图2 人工智能潜在技术风险概览

数据投毒攻击:机器学习是基于数据实现模型训练,若在训练数据集中植入精心设计的异常样本数据,原始训练数据的概率分布就会发生偏离,从而导致机器学习模型产生错误分类,影响模型的完整性,这就是数据投毒攻击.近年来,数据投毒攻击有蔓延之势,其带来的风险显而易见,已让人们对人工智能的应用产生了担心.

对抗样本攻击:以深度学习为核心的人工智能技术需要依赖高性能计算资源和大量高质量数据来训练模型参数,若在使用特定数据集训练和测试性能良好的深度神经网络中植入有噪声的数据,模型训练结果就会出现偏差而造成决策错误,这就是对抗样本攻击,哪怕在输入样本中添加细微的随机干扰也可能导致模型输出错误的决策.

成员推理攻击:攻击者构建一个攻击模型,通过区分目标模型的训练集输出分布和非训练集输出分布的差异性,并基于该差异性来区分出训练集成员和非训练集成员,实现成员属性或特征推断而造成隐私泄露.成员推理攻击包括直接攻击、间接攻击和统计推理攻击等.

算法不可解释:人工智能算法的一个棘手的问题是“不可解释性”,是指无法掌握机器学习给出某个结果的机理和理论依据,这就是算法的“黑箱问题”.黑箱问题是机器学习算法的开放性难题,其算法结果的不可解释性和不透明性特征让人类很担忧其算法的安全性.

算法偏见与歧视:人工智能算法及其模型训练与设计者有关,其设计过程可能会代入人的主观认知,甚至是偏见和歧视.同时,若使用不客观的、偏见歧视性的、不全面的数据集来训练模型,模型的分类就会出现错误,造成模型输出结果带有偏见性和歧视性.这就是人工智能的算法偏见与歧视,也称“算法的公平性”问题.

算法后门:算法后门攻击主要是利用后门特权对深度学习模型进行攻击,通过后门绕过安全控制来获取程序或系统的访问权限.当模型获得特定数据输入(也称后门触发器),恶意攻击行为就会被触发,从而导致神经网络模型产生错误的输出,这种触发器往往非常隐蔽而不易被检测到.

模型逆向攻击:该攻击巧妙利用机器学习系统提供的一些应用程序编程接口来获取模型的初步信息,继而通过这些初步信息对模型进行逆向分析,以推断出模型内部的训练数据和运行时采集的数据,从而造成隐私数据泄露.模型萃取攻击是一种能力很强的模型逆向攻击手段,它可以通过循环发送数据来获取模型响应结果,以此推断模型的参数和功能或克隆出一个功能相似或相同的模型.模型萃取攻击危害极大,既可以获取隐私训练数据,也可以窃取模型.

逃逸攻击:该攻击是利用系统中的漏洞,在不改变机器学习模型的学习系统情况下,精心构造输入样本,以欺骗目标系统实现攻击.攻击者可以在没有分类器的先验知识的情况下,使用所构造的数据训练学习来建立代理分类器,以替代目标分类器,达到攻击目的.

总之,以机器学习和深度学习为核心的新一代人工智能技术,其自身潜在的技术漏洞给人工智能大规模应用带来了严峻挑战.

2.2 人工智能过度滥用的社会风险

近年来人工智能的广泛应用,引发了针对机器学习模型、算法和数据方面的技术漏洞被不法利用的种种现象,包括智能杀熟致不公平竞争、数据投毒致决策偏离、人脸识别被滥用、推荐算法不当应用、虚假广告生成、虚假新闻合成、不良信息传播、误导性搜索排序、消费行为诱导和个人隐私挖掘等,这些问题严重扰乱了市场和社会秩序.

2.2.1 人脸识别滥采滥用

基于人工智能的人脸识别等生物特征认证技术已被广泛应用于安检认证、治安管理、政务服务和金融支付等领域,在有效提升公共服务和社会治理水平的同时,不规范的人脸识别等个人生物特征数据滥采滥用事件也引发了社会广泛关注和争议.近年来,人脸识别认证事件频频发生:2019年,深圳深网视界公司被曝出数据泄露,超过250万人的人脸图像等身份信息数据被泄露[1];2020年,央视“3·15”晚会曝光科勒卫浴、宝马等多家知名企业商店安装人脸识别摄像头[2];郭先生不满杭州野生动物园“入园必须录入人脸信息”的强制要求,将其告上法庭并胜诉[3].类似这样的事件不乏其例,小区、商场、电梯口、售楼部等场景成为人脸不规范应用的重灾区,甚至到了进健身房也要人脸识别的地步.人脸的过度采集和应用可谓是愈演愈烈,屡屡发生的人脸识别事件使其技术应用被推上舆论的风口浪尖.究其原因,主要聚焦于以下几个方面的问题:

1) 管理主体不明确.人脸识别涉及公安、安防、金融、民政、交通、旅游等诸多领域,涉及的应用面广,而归口管理主体不明确,管理权限依据不足,数据权属及责任边界模糊,引发人脸识别等的无序应用局面.

2) 管理规范依据不足.人脸采集者与被采集者的信息不对称,人脸识别过程缺乏权威性的标准规范,管理依据不足,实施细则不详实,技术应用游离于法律边缘,致使人脸等数据的滥采滥用事件屡屡发生.

3) 应用监管缺失.人脸识别技术迅速推广,但究竟什么行业和什么场景可以使用,谁能使用缺乏明晰界定,应用范围边界也不清晰,应用过程缺乏规范,从而造成人脸识别等应用的监管缺失.

4) 隐私保护不受重视.人脸识别作为一种新型认证技术,采集的是个人敏感信息,由于数据权属界定依据不足,标准、规范和法规体系跟进不够,隐私保护机制缺乏,导致侵犯被采集者个人隐私的现象频频发生.

2.2.2 虚假信息合成及传播

深度伪造是目前被不法分子恶意利用进行欺诈的常见方式,是基于“深度学习”和“伪造”相结合的技术,可以实现虚假人脸合成、视频合成和语音合成.例如,2018年4月,黑客伪造美国前总统奥巴马侮辱特朗普的视频[4];2019年8月,因换脸软件ZAO生成虚假人脸数据给社会安全带来潜在风险而被工信部门约谈[5].最近,央视曝光伪造他人的人脸视频可以通过注册认证[6].针对虚假新闻合成,2019年“站长之家”网站转载了一条讯息:Grover神经网络模仿各个新闻网站和记者风格生成虚假新闻[7].虚假信息合成与传播主要包括[8]:1)利用生成合成类算法自动生成新闻或帖子等,形成虚假信息大量传播;2)采用定向推送类算法在首页、首屏或弹窗恶意推送负面虚假信息引发社会恐慌.深度伪造技术的不法利用会严重扰乱社会秩序,引起社会信任危机.近期,清华大学人工智能研究院等几家单位联合发布《深度合成十大趋势报告(2022)》,从多个方面深入分析合成技术及应用带来的机遇与挑战,并就其发展与治理给出切实可行的建议和措施.

2.2.3 技术缺陷被利用致决策偏离

辅助决策是人工智能重要的功能,然而训练数据和算法的不透明性可能导致算法决策失控而引发严重后果.一个典型的例子是微软的聊天机器人Tay,在模拟一个十几岁的女孩与Twitter聊天时,24小时内从最初向善到变成一个种族主义者.这就是数据和算法缺陷引发机器学习决策偏离,导致偏离的主要原因是数据投毒和算法不透明.

数据投毒[9]是一种典型的异常训练数据置入,它是将精心设计的异常样本插入训练数据集,以操纵原始训练数据的概率分布,达到改变模型行为、降低模型性能和影响模型完整性的目的.数据投毒是一种严重的人工智能应用风险,令机器学习模型又面临一个严峻的安全挑战.较早的投毒攻击可以追溯到电子邮件攻击,通过在训练阶段学习包含正面词汇的垃圾邮件,误导训练垃圾邮件过滤器,使其在推理阶段将合法电子邮件误分类为垃圾邮件.近年来,投毒攻击受到学术界和工业界的高度关注,其已被广泛用于攻击传统机器学习、深度神经网络、强化学习、生物识别系统和推荐系统等领域.随着人工智能的广泛而深入应用,各行业都在陆续建设训练数据集,但同时也为恶意伪造数据注入提供了更多的机会,造成公共决策偏离的潜在风险加剧.

2.2.4 智能杀熟致不公平竞争

智能杀熟也称“大数据杀熟”,是近年来被关注的焦点.它是利用人工智能技术操纵电商平台商品价格的不良行为,使得针对同样的商品或服务,老客户查询的价格反而比新客户更高.中国青年报曾做过一项采访调查,结果显示51.3%的受访者遇到过大数据杀熟.以下几个案例更是冰山一角:滴滴熟客张女士称同样的出发地和目的地,自己的打车费比不常用滴滴打车的丈夫高很多[10];同样是在携程APP上预定某豪华大床房,享受星级优惠的胡女士发现其预定费用比普通旅客贵1倍[11];网友“漂移神夫”发文称同一家外卖、同一时间下单、同一配送位置,美团APP会员配送费却比非会员还要高[12].不良商家利用人工智能技术分析用户信息,形成精准的用户画像,从而实现价格杀熟.本质上,大数据杀熟是一种价格欺诈和价格歧视,是一种新型市场垄断形式,损害了消费者的知情权和隐私权[13],造成市场秩序混乱和不公平竞争.

2.2.5 不良推荐算法滋生侵权行为

近年来,不良推荐算法成为利用人工智能进行消费行为诱导和不良信息传播的主要原因,所引发的市场失序和社会问题引起各界高度关注.今年,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》,旨在规范互联网信息服务算法推荐活动.比较典型的不良推荐算法有诱导性排序推荐算法和成瘾性推荐算法.

伴随船舶大型化、交通流密集化等问题,航道的风险管理日趋重要,科学的管理是保障船舶安全行驶的有效途径。[1]在船舶交通流统计的基础上,使用IWRAP模型计算水域的船舶碰撞和搁浅的概率,对于了解水域的安全情况具有重要意义。[2]

诱导性排序推荐算法是指利用个性化推送类和排序精选类算法实现置顶、上热搜和榜单,以诱导消费行为和娱乐八卦炒作等,这种片面追求流量会误导消费者[8],甚至引发不安定因素.

成瘾性推荐算法的危害性也很强,这种推荐算法抓住人性的弱点,个性化地推荐用户感兴趣的内容,并利用用户的点击行为不断迭代优化,让人不由自主深陷其中而不能自拔.成瘾性推荐算法对青少年的危害更大,它犹如毒品一样影响人脑神经细胞,诱导青少年沉迷于网络及游戏,丧失基本的独立思考能力.

2.3 人工智能衍生的伦理道德困境

人工智能模型与算法设计者的偏见和负面情绪会导致决策的歧视性和不公平性.例如,带歧视性算法会导致特定场景的种族歧视、不透明的训练数据会加剧算法决策偏离所产生的就业群体偏见、成瘾性算法会诱导青少年沉迷于网络游戏;人工智能机器人辅助或代替人类工作时也会引发诸多的社会伦理挑战.总之,人工智能社会伦理涉及到人类的尊严、平等、公平和隐私等诸多问题.下面从个人隐私、算法歧视、权责边界和价值导向几个方面,分析当前人工智能伦理问题.

2.3.1 个人隐私伦理

在基于机器学习的人工智能技术应用中,大量的个人信息不可避免地被采集、挖掘和利用,尤其是涉及个人生物特征、健康、家庭和出行等高度敏感信息,使得由人工智能应用引发的隐私泄露风险被推到风口浪尖.例如,Facebook 3 000万用户信息泄露致1 400万用户的敏感信息被黑客获取[14];华住集团[15]和万豪国际集团[16]旗下酒店各自约5亿客人的信息被泄露;人脸识别头部企业旷视科技身陷“交易用户数据隐私”的漩涡[17],等等.人工智能引发的个人隐私风险使人一定程度上产生了恐慌心理,其衍生出的问题包括:隐私安全与公共安全的协调、数据安全与价值利用的平衡以及数据所有权与使用权的边界厘清等,隐私保护与人工智能的协调发展已成为当前数字经济环境亟待解决的问题.

2.3.2 算法歧视伦理

2.3.3 权责边界伦理

人工智能不断发展及应用不可避免出现情感和权责问题.例如,美国亚利桑那州一名女性在过马路时被一辆无人驾驶车撞到并死亡[22];谷歌在测试Waymo车时仅在时速2英里情况下撞上了一辆巴士[23].这种例子比比皆是,曾经在美国威斯康辛州对一名罪犯申请减刑审议时,陪审团采用人工智能技术根据其成长经历和成长环境,最终认定不同意减刑.类似的借助机器人判案、医疗诊断和办公服务等时,出现的情感倾向、决策公平和责任边界等问题必然会引起争议.总而言之,人工智能代替或辅助人类工作时所引发的权责边界伦理问题已成为全球关注的焦点.

2.3.4 机器人价值伦理

人工智能机器人的出现必然与人类形成就业竞争态势,也引发了价值导向的伦理冲突.诚然,机器人具有高效耐劳、成本低、准确率高和客观理性等优势,更适合于从事重复型、劳动密集型和流程自动化程度高等类型岗位.如最近广受关注的机器人流程自动化(robotic process automation, RPA)软件,就可以更好地取代固有规模固定规则和以结构化数据为主,且需要大量重复手工处理的场景,尤其是金融、财务和服务行业.据相关数据统计[24],采用计算机自动化,全球每年在低端领域可节省9 670万小时和33亿美元,在高端领域可节省12亿小时和411亿美元.因此,机器人的大规模应用必然使人类面临失业危机,引发社会不安定风险.

3 人工智能安全治理对策

人工智能作为一项引领经济发展的新兴技术,各国相继出台了相关标准、政策和法律法规.仅在2016年至2021年,美国至少颁布10项与人工智能相关的政策法规.在我国,人工智能已被提升为国家战略,各个领域都高度重视人工智能的应用,相继出台了部分标准和政策.国家标准化管理委员会、中央网信办、国家发展改革委、科技部和工信部5部门共同出台“关于印发《国家新一代人工智能标准体系建设指南》的通知”.尤其是人工智能研究方面,取得了不俗的成果,根据《中国新一代人工智能发展报告2020》数据显示,中国人工智能专利申请数累计超过3万件,位居全球前列[25].图3是近年来国内外出台的人工智能安全治理政策.

图3 国内外人工智能安全治理政策

基于相关已有的研究基础,本文针对人工智能技术安全、社会风险和伦理道德等问题,从技术、标准和法律3个维度提出协同治理方案及建议,如图4所示:

图4 人工智能安全治理体系架构

3.1 加强人工智能安全治理技术体系研究

针对人工智能的模型、算法、数据、隐私和应用等安全威胁,加强安全防范前沿技术研究,构建人工智能安全治理技术体系.在模型和算法安全方面,建立后门攻击和逆向攻击的底层技术防御机制,提升可解释性、透明性和鲁棒性能力;在数据和隐私安全方面,提升训练数据质量及评估水平,加强防范数据投毒和对抗样本攻击的技术能力,建立机器学习等技术的隐私计算体系;在应用安全方面,针对数据滥采滥用、生物数据伪造、智能推荐与大数据杀熟等应用风险,构建应用与安全相协同的技术体系.

3.2 构建人工智能技术标准与应用规范

构建人工智能技术标准与应用规范.从现阶段来看,目前的技术难以完全解决人工智能所有的安全风险问题,需要出台一系列切实可行的技术标准和应用规范.对此,建议围绕人工智能模型、算法、数据、应用等技术领域和产业应用,尤其聚焦人工智能算法公平、算法验证、算法诱导、智能推荐、决策评估、结果评价和样本甄别等需求,有计划、有步骤地制定人工智能相关技术标准和行业规范,促进人工智能的健康发展和有序应用.

3.3 加强人工智能伦理研究

鉴于人工智能目前的技术弱点,导致其在价值判断上存在局限性,使其在诸多应用领域都将面临伦理道德问题,如机器人、自动驾驶、智慧判案、智慧医疗等.国际上,美国、德国、英国、日本都在积极开展人工智能伦理道德方面的研究,我国也要与时俱进,组织有关部门和行业制定人工智能伦理原则和规范.在人工智能研发过程中,强化科研人员的伦理观念、道德约束和法律意识,确保人工智能向善和造福人类的健康方向发展.

3.4 健全人工智能领域政策法规及制度体系

人工智能在不断向各行各业纵深应用的同时,其技术漏洞也被频繁过度滥用甚至用于欺诈犯罪.首先,健全人工智能算法和数据的行业制度体系建设,建立人工智能技术滥用与欺诈的处罚细则;其次,强化人工智能的伦理道德和价值导向政策制定,构建将道德标准和伦理规范嵌入人工智能算法的技术解决方案;最后,建立基于现有法律体系的《人工智能管理条例》,逐步加快《人工智能法》的立法进程.

4 结论与展望

随着信息化的快速发展,在算法、算力和数据等技术的共同驱动下,尤其在大数据技术与机器学习深度融合背景下,人工智能技术及应用又进入了新的高潮时期,人工智能再一次引发学术界和产业界的高度关注,已成为新一轮产业转型升级的战略性技术.但人工智能的发展也是一把双刃剑,近年来类似无人驾驶、人脸识别、智能杀熟等引发的各种安全事件及法律纠纷不断出现,给人类带来了安全和伦理方面的担忧,隐私信息安全风险更是日益凸显.本文从人工智能应用的安全案例出发,梳理并分析人工智能面临的安全风险及技术挑战,包括数据安全、隐私安全、模型安全、算法安全和应用安全等.针对人工智能面临的安全问题,从技术、标准、伦理和法律等维度提出解决方案及建议,旨在为人工智能的理论和技术研究提供思考,为社会各方提升人工智能安全防护能力提供参考.无论是学术界还是产业界,人工智能安全技术都需纳入人工智能研究和应用体系中,同时还要加快落实人工智能伦理规范和法律监管,保证人工智能产业健康有序的发展.

猜你喜欢

人脸识别算法人工智能
人脸识别 等
哪种算法简便
人脸识别的“国标”来了
Travellng thg World Full—time for Rree
2019:人工智能
人工智能与就业
荣耀畅玩7C:人脸识别
数读人工智能
算法框图的补全
算法初步知识盘点