人工智能数据安全风险及应对*
2022-10-19林伟
林 伟
(1.西南政法大学刑事侦查学院 重庆 401120;2.福建警察学院侦查系 福州 350007)
1 问题的提出
当前,以机器学习为代表的人工智能技术已广泛应用在各个领域,如无人驾驶、人脸识别、语音识别、自然语言处理等。通常认为,人工智能旨在以科学技术为手段模拟或创造出具有“人类智能”的机器,其目标是从海量复杂且无序的数据集中通过算法模型计算出一个结果,并以此为判断决策的依据[1]。人工智能以算法、算力与数据三大核心驱动力作为支撑。其中,算法为人工智能的运行确定了“框架指南”,是人工智能软实力的关键;算力代表着人工智能运行的“执行能力”,是人工智能硬实力的保证;数据为人工智能的运行提供“原料”,是人工智能开发运用与发展的基石,数据质量将直接影响人工智能算法模型的训练效果和泛化能力。
人工智能与数据之间相互依存:一方面,数据为人工智能提供学习样本。训练数据集的数量与质量是决定一个人工智能模型性能好坏的主要因素,训练数据储备越丰富,在其基础之上训练出的模型性能就越好。因而,人工智能具有很强的数据依赖性。另一方面,人工智能技术又能够促进数据的收集、储存及利用水平。在规模庞大且杂乱无序的数据海洋中,如何精准且高效地搜寻目标数据并对其进行深度挖掘分析,人工智能技术发挥着无可替代的作用。人工智能不仅能够高效地收集获取人们的生产生活数据,而且还能够从中挖掘出有价值的信息,从而提高数据的利用水平。
人工智能的发展与数据保护之间也存在博弈:人工智能的发展建立在数据的收集与利用的基础上,在此过程中不可避免地会导致数据在互联网中流动传播,诱发了诸多的数据安全风险。譬如,面向训练数据的攻击会导致计算出错,从而降低人工智能结果的可信度;又如,面向隐私的攻击会导致用户数据的隐私泄露,从而降低人工智能应用的隐私性。因此,保证数据的安全性和隐私性是人工智能发展的重要课题。随着2021年《数据安全法》出台,数据安全的相关研究将持续受到学者关注,人工智能的数据安全问题与其他领域既有共性也有特殊性,但相关研究尚付阙如。基于此,本文旨在分析人工智能数据安全风险样态,剖析其原因,并在此基础上探寻治理路径,以期为我国人工智能数据安全治理提供决策咨询和可操作的实践指南。
2 人工智能数据安全风险样态
在回应人工智能数据安全治理这一命题时,首先需要我们清晰地勾勒出其具体的安全风险。具体而言,随着人工智能在各个领域的深度应用,数据得到更加广泛的使用,但同时也面临着多方安全风险。这些数据安全风险将侵害用户人身及财产权益、破坏行业规则甚至威胁国家安全。
2.1 数据质量安全风险
数据是连接现实空间和虚拟空间的桥梁,如果数据质量出现问题,则无法反映现实世界的真实情况,在此基础上建立的人工智能模型便会出现偏差,导致预测结果偏差或错误,出现“垃圾进、垃圾出”的现象。人工智能的数据质量安全风险是指直接或间接针对训练数据发起攻击,通过降低训练数据的质量误导算法模型的决策。
2.1.1数据投毒攻击
数据投毒是通过在训练数据集中添加污染数据(如错误样本或恶意样本),导致训练出来的模型在决策时发生偏差,从而影响模型的有效性或可用性,具体过程见图1。例如在自动驾驶领域,攻击者可以将带有特殊标签的数据添加到训练集中,以此来欺骗算法模型,导致进行自动驾驶的汽车违反交通规则,制造交通安全隐患[2]。根据人工智能运行的特点机制,数据投毒攻击主要有两种:一是采用模型偏斜的方式。攻击者直接攻击训练数据样本,通过污染训练数据导致人工智能学习到错误信息从而达到改变分类器分类边界的目的。二是采用反馈误导的方式。由于人工智能在运行时需要通过反馈机制来收集目标信息,攻击者利用模型的反馈机制直接向模型注入错误数据或伪装数据,从而误导人工智能在决策时做出错误的判断[3]。
图1 数据投毒
2.1.2数据深度伪造
深度伪造通常是指利用人工智能技术创造伪造品,其基本技术原理是通过“生成器”神经网络将目标数据与源数据合并生成模拟目标样本,再由“鉴别器”神经网络对模拟目标样本的真伪进行反复的验证和评估,最终生成逼真的模拟结果,具体过程见图2[4]。深度伪造通过对图像、音视频的超现实的数字伪造从而达到模仿特定对象的目的。深度伪造技术本身是中立的,但其若被恶意使用却能引发社会陷入数据信任危机。一方面,利用深度伪造生成的虚假数据依托网络社交平台进行自由生成、发布、传播,进而误导公共舆论,制造信任危机。例如,伪造政治代表或公众人物的言论视频,利用这种高度可信的虚假信息可以操纵公众情绪,引发舆论动荡。另一方面,利用深度伪造生成的视频甚至可以通过人脸识别系统验证,给基于生物特征识别的验证系统带来挑战。例如,美国的一家人工智能公司Kneron利用深度伪造技术生成的3D面具,成功地欺骗了多套人脸识别支付系统(如微信、支
图2 深度伪造生成框架
付宝等),完成了支付程序[5]。
2.2 数据隐私安全风险
随着人工智能的发展,越来越多的互联网计算平台提供了机器学习即服务(Machine Learning as a Service,简称MLaaS),平台框架见图3。用户通过调用MLaaS平台的应用程序接口,即可使用语音识别、人脸识别、自然语言处理等服务。然而,在这个过程中用户也可能把个人敏感数据提供给MLaaS,存在隐私泄露风险[6]。
图3 MLaaS平台框架
2.2.1数据过度采集
数据采集是数据生命全周期的第一个环节,也是人工智能发展的关键。数据采集必须遵守最少必须原则,《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)规定了信息收集者收集用户个人信息应当获得用户的同意,并且不得过度收集个人信息。数据过度采集是指违背这一原则的数据采集行为。当前由于智能终端设备的普及,各种智能应用程序经常强制读取用户的隐私数据(如个人定位、通讯录等),甚至在用户不知情的情况下后台偷偷运行,收集与其所提供服务无关的数据。例如,某智能设备生产企业通过“偷听”购买其智能音箱的用户在家中以及办公室中捕捉到的录音,以帮助改进其语音助手。用户的个人数据不断地被采集并记录下来,而控制数据的往往确是软件的开发者或运营者,双方力量明显失衡。用户在网络空间中也因此变成了“透明人”,被过度收集的数据最终目的和用途自身也不得而知,个人的知情权、隐私权和数据权益受到严重侵犯[7]。
2.2.2数据窃取攻击
人工智能数据窃取攻击是指攻击者利用模型的参数、中间数据结果或模型预测结果来恢复训练数据中的重要信息,进而达到窃取训练数据的目的。典型的数据窃取攻击有三种:一是模型逆向攻击。攻击者通过访问模型的应用程序接口,利用数据关联和推算演绎等技术,根据输入和输出信息的特定映射关系,逆向还原出相应的训练数据和隐私信息,如针对人脸识别系统模型逆向攻击,攻击者可以根据用户姓名等信息恢复出其本人的人脸照片[8]。二是成员推断攻击。成员推断攻击是利用模型预测结果推断模型训练数据中是否包含某个样本,从而达到窃取用户个人隐私的目的,如攻击者可以通过判断某个人的数据是否存在于某个公司的医疗诊断系统训练数据集中来获取隐私信息,如果存在,则可以揭示此人患有该种类型的疾病[9]。三是模型萃取攻击。攻击者通过访问模型的应用程序接口,推测出模型的参数、架构、超参数等信息,或者构造出一个与模型功能相似的模型,达到窃取模型信息的目的。
2.3 数据保护安全风险
数据在生产与创造、记录与传递、处理与使用的数据化过程中产生了对人的支配与控制的权力,即数据权力。在各种利益的驱使下,数据权力不断扩张,从而导致数据权力异化,产生了数据滥用、平台权力私有化等现象[10]。
2.3.1数据权属不明
随着数据资源资产化,数据权属问题逐渐成为争议的焦点。现如今,互联网已成为人们获取信息的主要渠道,用户通过使用各种智能终端在互联网平台上汇集了大量的数据资源,产生了独特的平台权力模式。部分互联网平台未经用户同意自动采集用户的个人信息、部分企业通过“算法共谋”形成事实上的垄断状态[11]。同时,个人数据在商业化过程中引发了许多数据产权争议问题。以我国首例大数据不正当竞争纠纷案为例,新浪微博认为脉脉违反双方签订的《开发者协议》,非法获取除新浪微博OpenAPI授权的头像、昵称、性别、教育和职业等之外的用户其他信息,侵犯其数据所有权[12]。由此可见,数据产权争议问题的核心是数据归属问题,个人数据商业化利用过程中应当有效平衡数据开发利用方与用户之间、数据开发利用方之间及数据开发利用方利益与国家利益、社会公共利益的冲突。
2.3.2数据滥用分析
数据滥用是指数据的不正当使用,在未征得数据主体知情同意的情况下,以其所不知的方式使用其个人信息或数据资产。由于受数据价值的利益驱动,在数据资源利用过程中,出现了数据超权限使用、超协定分析,甚至产生了非法数据交易的“黑灰产”利益链,对个人隐私、商业秘密及国家安全造成了极大侵害。比如,复旦大学研究人员通过对比 2017—2020 年某打车平台的数据,发现“熟人”打车比“新人”更贵[13]。这种所谓的“大数据杀熟”便是利用人工智能技术对用户的消费习惯、兴趣偏好等数据的深度挖掘分析而进行差异化定价,导致用户的知情权、公平交易权等基本权益受损。又如2018 年 3 月,美国知名社交网站 Facebook(脸书)的5 000万用户数据被其关联公司Strategic Communication Laboratories(SCL)和 Cambridge Analytica(剑桥分析)滥用分析,并将分析结果用于政治选举[14]。基于这种数据分析的个性化内容推荐,如果被滥用于将虚假信息推送给民众,会因人们关注的热点敏感话题信息极易被网络催生和传播,破坏数据生态环境[15]。同时,互联网平台基于用户画像重复推送用户兴趣的信息,间接地剥夺了用户对其他信息的“知情权”,使用户受困于“信息茧房”之中。
3 人工智能数据安全风险成因的学理探究
人工智能数据安全风险是各种因素互动耦合之结果。其一,尚未形成体系化的人工智能法律法规,一些人工智能应用已进入法律规范的空白区,出现法律规制缺位的现象;其二,人工智能技术内在的局限性,机器学习算法带有“黑箱”及不可解释性等,导致人工智能决策偏差无法消除;其三,人工智能从研发到应用过程中涉及到多元主体,出现了主体之间利益难以调和的局面。
3.1 规则之维:法律规制的缺位
近年,世界主要经济体数据安全相关立法得到不断细化,指导人工智能行业合规实践。例如,2018年,美国国会发布了《加州消费者隐私法案》,英国颁布了《数据保护法》,欧盟通过了《通用数据保护条例(GDPR)》等。此后,2021年,欧盟进一步发布了《人工智能法提案》(以下简称《提案》),作为全世界第一部人工智能监管法律,该提案的最大亮点是制定风险分级管理制度,推动人工智能数据安全监管,对人工智能数据安全治理有着重要的意义。
回归本土化语境中,2017年,我国颁布实施了《中华人民共和国网络安全法》。此后,与数据安全相关的配套规定相继出台,例如《信息技术安全个人信息安全规范》《中华人民共和国网络安全法数据安全法》(以下简称《数据安全法》)《个人信息保护法》等,甚至在《中华人民共和国民法典》中,也围绕数据安全问题,明确了数据侵权行为的民事责任关系。由此可见,我国现阶段高度重视数据安全的法治工作,积极回应了当前大数据、人工智能等技术发展的法律实践需要,立法内容较之以往有了长足进步。但是,针对人工智能数据安全问题,我国法律仍然存在以下四个问题:首先是立法衔接问题,主要表现在《数据安全法》与《个人信息保护法》未统筹规定数据处理者的安全管理模式,《数据安全法》要求的是建立健全的全流程数据安全管理制度,但《个人信息保护法》则规定分类管理和技术保护制度,易引起人工智能数据安全管理的责任交叉、立法内容的重复等问题;其次是法律留白问题,由于新法颁布时间不久,难免有不周延之处,现行法律规范为人工智能产品供应商、服务运营商、信息处理者留下了过多自由发挥的空间,这一问题比较突出地表现在《个人信息保护法》第13条、第16条以及第26条之中,三项规定均用到了“必需”一词,但怎么认定“必需”“认定必需的原则是什么?”这些问题都有待立法者进行解答;其三是立法可操作性不强问题,主要体现在部分条款拟定的比较原则化,比如说《个人信息保护法》第6条规定的“最小范围”、《数据安全法》第21条规定的“数据分级分类保护”,其具体内容都不是特别明确,关于“最小范围”“数据分级”“数据分类”的含义较为模糊,立法的可操作性差;其四是数据保护立法的碎片化问题,法律文本中没有确立统一的数据管理标准、数据审核标准和数据保护标准,而是散布在不同法律规范的各章节之中,并没有形成统一、规范的人工智能数据标准体系。
3.2 技术之维:人工智能内在的局限性
人工智能自主决策系统更多的是依赖算法对数据的理解运算后而得出,这种基于算法的决策可能挑战人类独立的决策权,人工智能自身技术的局限性亦将导致其决策结果的偏差。具体表现为:一是算法安全导致的应用不可靠。由于模型的黑盒特性和弱可解释性,人工智能算法通常存在鲁棒性不足的问题,攻击者可以在测试推理阶段,在输入样本中添加对抗扰动,从而导致模型误判,甚至实现对决策的控制。以深度学习为核心的人工智能技术存在着脆弱性和易受攻击的缺陷,使得人工智能系统的可靠性难以得到足够的信任[16]。二是算法黑箱导致决策不透明。传统机器学习决策一般历经数据输入、数据清洗、特征提取、特征选择、智能计算再到预测的过程,整个过程相对透明。深度学习通过模拟人脑的神经元建立神经网络,在输入的数据与输出的结果之间搭建隐藏层(即“算法黑箱”),由“算法黑箱”自动分析挖掘出数据的特征并产生高级的认识结果[17]。再加上深度学习算法设计本身复杂性,算法研发过程中可能历经不同研发主体、使用不同编程语言、各种开发工具等,即便是专业技术人员也很难系统了解算法内部运行机理[18]。不仅如此,随着深度学习神经网络隐藏层的增加、多种算法的叠加使用,如何实现算法的可解释性也变得更加困难。“算法黑箱”将会导致人工智能决策的不可解释性,甚至引发决策失控。三是数据偏差和歧视导致决策偏见。人工智能算法对某类有地域歧视、种族歧视或者有偏差的数据进行学习训练,会导致其决策结果带有歧视性[19]。由于人工智能算法并没有真正获取数据的因果关系,而是依赖数据关联性、特征统计以及数据特征分布性和完整性。智能算法在决策时会选择“技术逃避”,其决策结果更偏见于统计上的多数样本群,导致少量但是实际有用的数据在往后的算法决策之中消失不见,形成“歧视”[20]。比如,随着大数据统计分析技术的广泛应用,政府在运用此项技术执行决策时可能更多地采集到经济发达地区或人群特征的数据,从而导致数据出现偏差,使得那些偏远地区或者老幼贫弱人群特征因数字化程度较低而无法全面获取,影响运行结果[21]。
3.3 治理之维:多元主体利益难以调和
从数据生命周期视角来看,数据在人工智能应用中历经数据采集、数据传输、数据储存、数据处理、数据交换再到数据销毁的动态周期过程,所涉及的主体涵盖了个人、企业、组织、政府等。在这个过程中,出现了多元主体利益难以调和的局面,具体表现为:其一,政府治理理念不适当。“效率至上”依然是政府治理的主导性价值理念,在与效率价值驱动的人工智能技术共同加持下,进一步强化了政府对效率的价值追求。然而,随着满足人民群众对美好生活的需要成为社会价值共识,如何充分考量社会公平、权利保障以及自由安全与效率的有效平衡便成了当务之急[22]。其二,企业自我规制动力缺乏。于企业而言,追求经济利益最大化往往是其行为动机的本质诉求。不可否认,企业的社会责任和经济利益之间存在着一定的矛盾,特别是在市场公共利益与企业私人利益难以平衡的条件下,社会责任与用户权利的保障往往会被企业置于经济利益之后。如果企业的社会责任意识缺失,那么其在人工智能产品研发之初便不会过多考虑技术自身可能存在的风险,更不会主动提出防范风险的应对之策。其三,科技人员的科技伦理责任不足。科技人员是人工智能技术的主要设计者。由于人工智能技术更新迭代迅速,技术创新往往成为科技人员的主要价值追求。然而,科技人员的知识背景及伦理观念等都可能潜在地影响其所设计的人工智能产品,一旦人工智能被植入科技人员的个人偏见,其所带来的负面效应便会成倍扩大,并将进一步加剧社会的不公正[23]。其四,民众个人数据保护意识薄弱。对于大部分民众而言,使用智能产品或服务更多的是考虑其所带来的生活便捷性,而对个人数据保护存在着明显的“知识盲区”。同时,由于人工智能技术的“高门槛”,普通民众对于个人数据风险的感知及控制能力相对于其他主体也处于弱势地位。
4 我国人工智能数据安全治理路径
随着人工智能技术的深度应用,越来越多的数据在人们生产生活中被收集利用,人工智能与数据保护之间产生了博弈。因此,我们应重点从完善法律法规、打造数据保障平台、创新可信人工智能技术着手,构建人工智能数据安全多元主体治理模式。
4.1 法律层面:完善人工智能数据安全法律法规
完备的法律法规是数据安全治理的前提,推进人工智能数据安全立法能够促进运用公权力对人工智能数据安全风险的遏制。人工智能数据安全治理应从“立法衔接”“法律规定的周延性”“法律规范的可操作性”“立法体系化”四个方面来加强人工智能数据安全领域的法治建设,为数据安全治理工作提供法律依据和行动指南。具体包括:一是加强人工智能数据安全领域的立法衔接。一方面,我国需要将《数据安全法》的“全流程数据安全管理制度”调整为“全流程数据安全管理机制”,从“保护机制”(程序内容)与“保护制度”(实体内容)两个方面来衔接立法规定;另一方面,应当进一步研究出台《数据安全法》《个人信息保护法》等法律的配套细则,并针对人工智能特定应用场景立法。同时,可参照欧盟《提案》增强法律内容的衔接协调和灵活开放。具体来讲,就是确保人工智能法律与现在的《数据安全法》《个人信息保护法》等法案的有效衔接,明确人工智能不同应用场景下的数据安全规制启动条件、门槛和方法,通过设置清单列表的方式建立类似数据库操作的“增删改查”动态调整机制,确保在技术发展和场景变更情况下法律的时效性和灵活性[24]。二是查漏补缺,弥补立法中存在的漏洞,压缩立法留下的模糊空间。首先,对于《个人信息保护法》第13条、第16条以及第26条中“必需”的具体内容问题,应当通过两高的司法解释,将“必需”一词限缩为个人隐私保护之需要、公司经营数据保密之需要和国家机密保护之需要;其次,对于“必需”的认定原则问题,应当遵循适当性原则、必要性原则和均衡原则(保护措施与保护目的之间的合比例性)来解释“必需”一词的认定场景和前提;最后,进一步完善对个人信息、个人数据、个人隐私定义的立法规定,与此同时,明确界定“已识别”“可识别”“匿名化处理”的概念。三是探索人工智能数据分级保护制度。通过数据分级区分不同级别重要性的数据采取不同的安全保护措施,从而避免因对所有数据平均用力而顾此失彼,提高数据安全保护的实效[25]。一方面,依数据分类分级保护。我国《数据安全法》第21条中提出“建立数据分类分级保护制度”,但尚未明晰其具体框架与重要数据目录的制定。人工智能数据安全治理应细化数据分类分级,按照数据来源、数据质量、组织等维度对数据进行动态、静态的方法分类,并根据业务流程、重要程度、敏感程度等不同属性和特征对数据进行分级。另一方面,依人工智能应用场景分级保护。欧盟《提案》提出将人工智能应用场景分为“最低、有限、高、不可接受”四个高低不同风险等级,等级越高的应用场景受到的限制越严格。基于此,我国也应积极探索人工智能应用场景“四级保护制度”:一级是针对国家秘密数据;二级是针对重要产业数据;三级是针对经济组织数据;四级是针对一般用户数据;四是建立统一、规范的人工智能数据标准体系。人工智能数据安全需要构建统一规范的数据标准体系。建议由国家信息安全标准化技术委员会、中国通信标准化协会等国家及行业标准化组织共同成立人工智能安全研究组[26],促进国家、行业和团体标准化组织联合有序推进人工智能数据标准的出台。标准体系的主要框架包括集合性、目标性、可分解性、相关性、环境适应性。在立法中,集合性体现为数据管理标准、数据审核标准和数据保护标准的协调统一,目的性表现为保护数据权益的体系化保护,可分解性表现为数据标准立法规定的可修改与可更新,相关性表现为安全标准、法律标准和数据标准的相互交融与相互依赖,环境适应性表现为人工智能数据安全标准体系处在一定的技术环境和社会环境之中,必然需要适应当今的人工智能环境、法治环境和人文环境。
4.2 平台层面:构建以数据为中心的安全保障体系
构建以数据为中心的数据安全治理平台,是人工智能数据安全治理的基础,能够有效实现数据风险感知、数据共享保障及数据质量可靠。具体包括:一是建立数据安全风险感知体系。首先是数据态势可知。以数据科学统计分析为支撑,对能够引起敏感数据态势发生变化的安全要素进行“获取、理解、显示”并预判未来的发展趋势。其次是数据威胁可现。通过分析挖掘各种数据处理日志,结合威胁情报进行关联,并基于可视化技术实现针对数据安全的态势感知与直观呈现。最后是数据风险可控。基于数据访问和数据流阻断控制机制,对数据风险事件溯源,及时响应处置。二是打造零信任的数据安全机制。零信任是创建一种以数据为中心的全新边界,其关键在于控制对数据的访问权限来实现对数据的管理,而与访问发起者的位置无关,也与数据所在的位置无关[27]。零信任通过对人员、设备、应用服务进行统一的身份管理,将身份作为访问控制的边界,最大程度地缩小数据应用服务的暴露面,降低数据和应用被入侵攻击的可能性。通过身份认证、权限管理、安全审批、安全审计、安全感知和安全策略控制打造完整的零信任安全机制。只有通过动态的认证和授权,才可能发起对数据资源的访问连接。三是建设数据质量管理智能平台。数据质量管理智能平台对数据接入、数据处理、数据组织等过程的数据进行采样并输入到质量样例数据库,建立数据质量核验任务,自动完成数据质量规范性、一致性、准确性和完整性的检查。通过建立全流程的闭环化的监管体系,定位、分析、跟踪及解决数据质量问题,形成数据质量闭环化的处理机制,保证数据质量持续稳定可靠。数据质量管理智能平台对数据流实时监控,发现断流、数据流量积压、波动异常等情况进行智能预警,保证数据流正常稳定。
4.3 技术层面:创新可信人工智能技术
通过创新可信人工智能技术打造安全可信的人工智能,是人工智能数据安全治理的根本,能够有效解决人工智能隐私保护、可解析性和公平性等问题。具体包括:一是隐私保护。我国《网络安全法》第42条、《数据安全法》第27条、《个人信息保护法》第51条,均有类似“采取相应技术措施,保障数据安全”的表述,人工智能数据安全常用的“技术措施”便是“隐私计算”。基于数据隐私计算的机器学习能够在数据不泄露的情况下实现数据“可用不可见”的效果,从根本上解决人工智能的数据隐私问题。我国应当通过“产学研”合作,重点突破多人化、本地化、去中心化的机器学习平台。在这种平台模式下,用户可以将个人敏感信息存储到本地设备,通过互联网访问机器学习模型,利用自己的数据更新模型参数,并与其他参与者共享。以联合训练的方式,在保护用户的数据安全的同时也减少企业的数据监管压力。二是可解释性。2019年6月发布的《新一代人工智能治理原则》指出,人工智能系统应不断提升可解释性。可解释的人工智能是指构建人工智能应用程序的技术和方法,人们借此以理解它们做出特定决策的原因。从技术层面来看,传统机器学习模型主要采用给出要素对决策的重要性度量的自解释模型;而深度学习算法主要采用特征重要性、决策树、敏感性分析等,以及基于上述方法的可视化解释器来实现算法透明度[28]。各科研机构及企业应定期向社会公布算法的技术逻辑与特征,通过可视化方式向公众演示人工智能数据采集、算法决策的基本流程,评估并解释算法模型的中间状态。同时,在人工智能实际使用阶段,应通过适当的人机交互技术(如文字、图形图标、动画展示等)以通俗易懂的方式向用户阐释人工智能的功能逻辑及可能潜在的风险。三是公平性。人工智能决策结果应当遵循公平性原则。通过提升训练数据的多样性和公平性建构多元包容的人工智能系统,避免因决策偏见而造成个人或群体失去平等参与社会经济活动的机会。一方面,通过采取主动措施削弱数据集中固有的偏见或歧视,如在人工智能预处理阶段对不平衡数据重采样、处理过程中加入与公平性量化有关的正则项、处理后对模型进行精度提升的方法来提高模型的公平性;另一方面,根据具体应用场景和特定需求选取合适的量化指标,通过公平决策量化方法减轻决策偏差或歧视[29]。
4.4 协同层面:推进人工智能数据安全协同治理
人工智能数据安全的治理不能单单只靠某一方力量,而须采取协同治理的方式,如此不仅能聚合多元主体的力量参与到数据安全治理中来,还能有效的平衡各方主体的利益诉求。2017年,近千名人工智能专家在美国加州的阿西洛马市共同签署了阿西洛马人工智能原则,该原则被认为是“人工智能行业宪章”[30]。阿西洛马人工智能原则为我国人工智能多元主体协同治理提供思路,具体措施包括:第一,阿西洛马人工智能原则鼓励社会公众积极参与人工智能领域的科技互动。政府作为人工智能数据安全治理的主导性力量,发挥着引导和决策的重要职能,应当定期开展数据安全宣讲,推行数据安全观进校园、进社区、进图书馆,鼓励社会公众参与到数据安全治理的整个工作流程。第二,阿西洛马人工智能原则第6条认为,人工智能系统在它们整个的运转周期内应该是安全可靠的。企业在人工智能产品研发及推广中应主动探求多元渠道,以政务监管为准则,以同行评估为标准,以社会监督反馈为目标,进而寻求多元化协同治理力度。其中,智能产品供应端要做好产品安全市场调研,并对反馈信息进行严格的筛选和分类分级;智能产品运营端在产品运转周期内,要动态跟踪并投入技术支撑保障产品的持续安全;售后服务端以企业规章为准则,做好定期维护升级、产品售后以及回收置换等工作,保障消费者权益的同时确保智能产品全链条的数据安全。第三,阿西洛马人工智能原则第9条认为,人工智能产品设计者有责任塑造产品的道德影响。科技人员作为人工智能产品设计的中坚力量,一方面要加强科技伦理教育,创造科技向善氛围,使得科技人员主动思索技术和产品的潜在影响,自觉担负起社会责任;另一方面深化人才评价制度改革,改变“唯技术效益”论,将产品伦理影响一并纳入考核指标中并增大权重,引导科技人员自觉认同科技伦理。同时,加强行业自主伦理审查,依托现有技术认知,对新兴人工智能产品投入市场予以把关,使得科技人员由“自律”转向“他律”。
5 结 语
在数字经济迅猛发展的形势下,数据资源在经济运行和资源配置中起着日益重要的作用。数据不仅是国家基础性战略资源,同时也是企业的重要资产,更是人工智能发展的基石。人工智能的深度应用与数据保护之间产生了博弈,缓和两者张力亟需法律规制和技术控制的共同介入。同时,人工智能数据安全风险治理需要立足以数据为中心,以组织为单位、以能力成熟度为基本抓手,政府、企业、个人等利用自身优势实现有效协同,建立适应数字时代发展的多元主体治理模式。