APP下载

生成式大模型的数据安全风险与法律治理

2024-01-10刘羿鸣林梓瀚

网络安全与数据管理 2023年12期
关键词:数据安全个人信息人工智能

刘羿鸣,林梓瀚

(1.武汉大学 网络治理研究院,湖北 武汉 430072;2.上海数据交易所,上海 201203)

0 引言

生成式大模型(以下简称大模型)是指基于海量数据训练的、能够通过微调等方式适配各类下游任务,并根据用户指令生成各类内容的人工智能模型。大模型具有极为宽广的应用前景,且使用门槛较低,用户可通过开源或开放API工具等形式进行模型零样本/小样本数据学习,便可识别、理解、决策、生成效果更优和成本更低的开发部署方案。

然而,大模型的训练及其应用的落地都需要大量的数据作为支撑,由此带来的诸如个人隐私泄露和数据篡改等数据安全风险已成为法律所必须因应的重要议题。本文将基于大模型数据安全风险的系统性分析,对国内外既有规制路径的不足进行梳理,最后提出我国大模型治理的完善建议,以期推动大模型应用的可信有序发展。

1 问题的提出

大模型的广泛应用与内生性技术局限的叠加引发了对大模型所导致的数据安全风险的担忧。在理论界,已有不少学者分别从大模型的训练数据治理[1]、国家安全风险[2]、大模型数据合规的管理原则[3]等方面对大模型数据安全监管进行了探讨;而在实践中,多国发布了有关大模型监管的政策文件,试图将大模型数据安全风险纳入相对可控的法治轨道。例如,意大利的个人数据保护局曾对大模型的应用发布禁止令,欧盟也对大模型的数据安全风险展开了调查。2023年7月,我国出台了《生成式人工智能服务管理暂行办法》,针对大模型的数据来源、数据质量、个人信息保护等问题进行立法规制。

但既有的大模型数据安全风险监管在理论和实践层面仍面临不少困境。一方面,或是囿于对大模型的本质与特征的认识不足,既有研究要么将数据安全风险与个人隐私保护混同[4],要么仅仅关注大模型运行中的某一环节中的数据安全风险而忽视了其他环节[5],总体来看尚未形成对大模型数据安全风险的统一性和系统性认识;另一方面,我国现有的立法和监管政策存在表述模糊、责任分配不清等问题,恐难以充分化解大模型应用引发的数据安全风险。

由此可见,大模型的可信发展需要加强对大模型数据安全风险的系统性认知,并在借鉴域外大模型治理经验的基础上有针对性地完善我国的大模型治理规则,以期形塑兼具鼓励创新和控制风险的具有我国特色的大模型数据安全风险监管路径。

2 “动-静”视角下的大模型数据安全风险

认知风险是风险治理的逻辑起点。基于对大模型数据风险的既有观点及其不足的分析,结合数据安全的本质特征,或可为化解大模型数据安全风险提供更为多元、全面的视角。

2.1 “动-静”视角下大模型数据安全风险的提出

安全与风险是一组二元对立的概念。根据《现代汉语词典》,安全的词义是“没有危险;不受威胁;不出事故”[6]。与之相对应,风险则是一种“未来的不确定性”[7],而正是这种“不确定性”侵害了安全的“自然状态”,此时则需要法律通过风险治理来实现和保障安全。

规避风险的前提是对可能存在的风险形成充分的认知。在生产力较为低下的古代,人与人之间的交往并不频繁,风险的种类也较为单一,因此当时的法律主要关注对个体人身和财产安全的保障[8]。到了近代,工业革命带来便捷的交通方式,人际间愈加频繁的交往使得社会风险特征从点对点、偶发性和个体性,转向群体性、区域性,引发对集体安全和国家安全的关注[9]。进入当代,以人工智能为代表的新技术的迅猛发展使得数据成为“二十一世纪的石油”,同时也带来了数据泄露、个人隐私侵犯等问题,安全的保障范围由物理空间向赛博空间(Cyberspace)扩张,数据安全的概念由此产生。

区别于传统安全风险,大模型数据安全风险具有多重含义,需要建立基于“动-静”双重视角的风险认知体系。一方面,数据之上承载着多方主体的利益,大模型数据安全不仅仅关乎数据自身的安全,还体现对数据持有者、数据来源者的权益以及社会公共利益以及国家利益的保障[10];另一方面,数据的价值在于利用,因此对大模型数据安全的探讨应当具体到大模型数据的使用、加工、传输、提供、公开等数据处理活动中,而不是局限于对数据静态安全的泛泛而谈[11]。因此,一个更加符合大模型技术特征以及实践认知的解决方案是,将大模型的数据安全风险划分为静态和动态两个层面,前者以数据安全保障的不同主体利益为观察视角,梳理大模型对个人数据安全、企业数据安全以及国家数据安全带来的挑战;后者则以大模型的运行流程为视角,分析大模型的数据采集、模型搭建以及模型产出等各个阶段的数据安全风险。图1所示为“动-静”视角下大模型数据安全风险全景图。

图1 大模型数据安全风险全景图

2.2 大模型的静态数据安全风险

安全难以脱离不同主体所构筑起来的诸多社会关系和社会结构,“安全从一开始就作为我们与自身的关系,与他人的关系以及与世界的关系,被理性地加以规定”[12]。从这个角度来看,不能仅仅讨论大模型应用中的数据自身的安全,而需要从不同主体的不同利益诉求出发,分析个体、企业以及国家在数据安全中的权益保障。

其一,大模型的个人数据安全风险。虽然学界对个体对数据是否享有财产性权益尚存在争议[13],但毋庸置疑的是数据之上承载着由《民法典》《个人信息保护法》等法律所明确或暗示的个体享有的包括知情、决定、查阅、复制、更正、补充、删除在内的一系列人格权益。然而,大模型的数据采集、模型搭建和结果输出无一不涉及对个人数据的处理,其在医疗、金融等领域的应用更是涉及个人的敏感信息,但囿于现阶段大模型技术的局限性,难以做到对个人数据的全面性保障。例如,当用户对ChatGPT进行提问时,可能会暴露其不愿公开的个人信息。而根据OpenAI的说明,ChatGPT只支持用户删除个人账户,而无法做到完全删除用户的个人信息,这使得OpenAI不得不在其网站提示用户“不要在谈话中分享任何敏感信息”[14]。

其二,大模型的企业数据安全风险。企业基于对数据的实质性加工和创造性劳动获取了对数据及数据产品的财产性利益,对此我国在政策和地方法规层面予以认可,并在司法实践中通过著作权保护或反不正当竞争法的有关规定予以保护。然而,大模型在应用过程中频繁地从互联网大量地爬取数据,而大模型在挖掘、使用数据的过程中却难以对所利用数据的权利状态进行一一辨析,若被爬取的数据中包含企业的商业秘密或可被纳入著作权法保护范围的内容则极易构成侵权。

其三,大模型的国家数据安全风险主要体现在数据的跨境流通过程中。在大数据时代,数据被视为国家的一种基础性战略资源,各国纷纷主张对本国数据进行生产、开发、利用,并提出一系列有关数据本地化存储和限制输出的规定[15]。例如,针对个人数据的出境监管,我国《个人信息保护法》就规定了数据出境安全评估、个人信息保护认证以及签订个人信息出境标准合同三种路径,并通过《数据出境安全评估办法》《个人信息出境标准合同办法》《网络安全标准实践指南 个人信息跨境处理活动安全认证规范V2.0》等对个人数据出境规制的具体内容予以细化。在此背景下,大模型在全球范围内收集和使用用户的个人数据将面临极大的合规风险。例如,若国内的ChatGPT用户出于数据分析或信息统计等目的,将其收集的一定规模的个人数据传输至OpenAI的境外数据处理中心,就很可能构成事实上的数据出境行为,如果未经审批许可将导致极大的合规隐患[16]。

2.3 大模型的动态数据安全风险

大模型的应用是一个动态的过程,大致可以分为数据采集阶段、模型训练阶段以及应用阶段。由于不同阶段涉及的数据处理行为不同,相应的数据安全风险也存在差异,需要分别展开分析。

其一,训练数据的采集阶段。大模型的搭建依托于海量的训练数据,由于训练数据的来源属性具有多元性,所可能引发的数据安全风险也将是多重而非单一的。以个人数据为例,根据我国《个人信息保护法》的有关规定,采集个人信息主体的个人数据需要得到信息主体的同意,并遵循目的最小化原则,若采集的数据属于个人敏感信息则更需要得到个人单独或书面同意。但由于具体的数据训练环节,大模型的训练数据一般都以“太字节”(Terabyte)为计量单位,难以保障模型开发者对每个主体都完全符合知情同意的具体要求。

其二,在模型的训练与调整阶段,开发者利用奖励机制和强化学习技术对模型进行不断训练和调整,不断提升内容生成模型的回答质量[17]。在该阶段,如何保障模型内存储数据免遭黑客攻击或内部工作人员非法披露导致数据泄露风险是一个值得思考的问题。对此,尽管各大科技公司都声明将采取加密等措施来保障数据安全,但根据外国媒体的报道,在模型构建阶段的数据安全泄露问题可能已经发生[18]。

其三,在模型的应用阶段,用户通过prompt指令向大模型“发出命令”,大模型随后便会在数据库中进行检索,而后通过对用户指令内涵的分析,将搜索结果由数字序列形式逆向翻译为自然语言形式,并为用户输出相应的结果。然而,容易被忽视的问题是,用户通过prompt指令输入的内容可能也属于用户的个人信息,仍需要按照《个人信息保护法》的有关规定采取相应措施进行保护。值得注意的是,我国的人工智能立法也意识到了这点,在2023年7月10日正式颁布的《生成式人工智能服务管理暂行办法》中明确规定了生成式人工智能服务提供者对使用者的输入信息和使用记录履行保护义务,且应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。

3 大模型数据安全风险治理的既有路径及不足

随着人工智能应用全球化进程的不断加快,世界各国的人工智能立法也被提上日程。根据斯坦福大学发布的《2023年度人工智能指数报告》,2016至2022年间,全球已有31个国家颁布了共123项与AI相关的法案。以下以欧盟、美国的治理模式为例,总结其经验与不足,并对我国既有的治理策略进行评析。

3.1 欧盟模式:基于风险分类分级的刚性治理

总体来看,或许是受到强调人权保护的法律传统以及一体化的政治体制的影响,欧盟的大模型治理采用了较高强度的监管力度[19],自2016年起就不断探索推进对人工智能技术应用的风险监管体系建构。2021年4月,《人工智能法案(提案)》(以下简称“AIA”)正式发布,并在2023年通过谈判形成了最新版本。

从2023年最新修改的AIA来看,欧盟已形成了基于风险的大模型分类分级治理路径。具体而言,AIA以具体应用场景中引发风险程度的高低为基准将人工智能系统划分为四类,即不可接受的风险(unacceptable risk)、高风险(high risk)、有限风险(limited risk)和较低或者最低限度的风险(low and minimal risk),法律应对策略分别对应禁止(prohibition)、事前合格性评定和认证标志(exante conformity assessment and CE marking)、信息披露(transparency)和无义务(no obligations)。其中,大模型作为泛用性极高的人工智能系统,因其在教育、金融、法律等领域广阔的应用场景,属于AIA附录3所列举的特定领域AI系统,将很可能被定性为高风险人工智能系统,并被要求履行建立全生命周期内持续反复运行的风险和质量管理机制、对训练数据中的个人数据采取假名化措施等数据安全保障义务。欧盟的大模型监管路径对大模型的研发者、提供者提出了较高的义务,有利于保障数据安全。

然而,欧盟的风险分类分级监管思路以人工智能的应用场景为标准,可能导致大模型被一律定性为高风险人工智能,难以实现大模型的精细化治理,可能阻碍大模型技术的创新性发展。另外,以统一性立法开展的大模型治理相较于分散性立法缺乏了一定的灵活性,面对瞬息万变的大模型技术发展难以实现“敏捷性治理”。

3.2 美国模式:“鼓励创新+低强度”的柔性监管

在联邦层面,美国尚未形成统一的大模型立法,而以一些不具有强制适用性的政策文件为主。而在州层面,针对大模型的数据隐私保护,美国各州的立法采取了较为宽松的监管策略,为大模型企业的发展留下了更多容错空间。一方面,在知情同意模式的选择上,区别于欧盟GDPR的“选择加入”(opt-in)原则,美国采用了“选择退出”(opt-out)模式[20],大模型企业在模型训练数据的收集过程中满足一定条件则无需事先征得数据主体同意;另一方面,美国各州立法提出了企业更正期、中小企业豁免权等创新容错措施。其中,企业更正期是指面临行政处罚和行政诉讼的企业若一定的更正期内(《加州消费者隐私法案》(CCPA)规定更正期原则上为30天)进行合规性整改,便可以免除相应的处罚。中小企业豁免权则是指通过在法案中设置以企业营业额或处理数据量为标准的适用门槛,将部分中小企业排除在法案的适用范围之外。例如,弗吉尼亚州的《消费者数据保护法》(CDPA)规定该法仅适用于一年内控制或处理超过10 万名弗吉尼亚州州消费者数据的企业。类似地,被视为联邦隐私立法潜在模型的CCPA仅适用于在加州开展业务并满足以下条件之一企业:(1)营业年收入超过2 500万美元且年收入的50%以上系源自于销售加州消费者的个人信息;(2)基于商业目的处理的加州消费者信息每年超过50 000个。

可见,美国对大模型的监管策略更多是基于商业逻辑而非人权保护的逻辑[21],“监管”被视为一种反对自由市场的负担[22]。循此理念,美国不把强制监管放在首位,而是最大程度发挥企业自治和市场的自我条件,意图激发大模型研发的创新动力[23]。但这一监管策略忽视了对大模型应用中各类数据安全的保障,或难以防范大模型广泛应用对个人、企业甚至国家数据安全利益带来的潜在威胁。

3.3 我国大模型数据安全风险治理的现状与不足

我国一贯重视技术发展的风险治理,遵循发展与安全并重、创新与伦理并行的治理思路[24],通过引导“科技向善”来促进高科技产业的健康发展。在国家层面,2017年,我国发布《新一代人工智能发展规划》,为我国的人工智能健康发展提供纲领性指引;2021年9月、11月,《数据安全法》和《个人信息保护法》先后施行,为规范人工智能应用中的数据安全和隐私保障提供了合规指引;2022年以来,为因应大模型广泛应用带来的技术风险,我国先后颁布了《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》(以下简称《办法》)等一系列监管规范,提出了算法备案、数据安全审核以及训练数据治理等制度要求,初步构建起我国大模型治理的监管体系。在地方层面,深圳、上海等地出台有关人工智能产业的促进条例,积极探索人工智能风险的分类分级监管体系。例如,《上海市促进人工智能产业发展条例》第65条就将人工智能产品和服务分为高风险以及中低风险两级,分别适用“清单式管理”和“事前披露+事后控制”两种不同的监管方式。

然而,就大模型的数据安全风险治理而言,我国既有的监管方案还存在一些不足,体现为以下几点:

其一,分类分级监管的标准不够清晰,难以落地。根据监管对象的不同特征实施分类分级监管是我国实现治理精细化与科学化的一贯思路。然而,在大模型治理领域,《办法》第3条仅在原则层面提出要开展分类分级监管,却未明确究竟以何标准作为分类依据、具体分为几种类型以及对应的差异化规制方式。上海市颁布的人工智能产业条例中虽探索性提出将人工智能分为高风险和中低风险两级,但也未详细说明分类的依据,且囿于其效力位阶较低和适用范围有限而难以实现大模型敏捷治理[25]的目标。

其二,我国既有监管规范未明确提出大模型研发者的概念,可能导致大模型数据安全风险的责任分配不清。在“小模型”时代,模型采用高度定制化的“手工作坊式”生产方式,研发、部署和运行的主体可清晰界分[26]。然而,大模型采用“无需定制”“协同部署”“轻量通用”等方式实现快速普及,使得作为大模型服务提供者的平台企业难以形成对模型定义、设计和部署的终局影响力,对模型数据安全具有影响力的研发者却可能并未与应用层用户产生直接交互。可见,在大模型治理中,界分模型研发者和服务提供者并课以不同的数据安全保障义务是数据安全风险化解的应有之义。然而,我国颁布的《办法》第22条仅规定了生成式人工智能服务提供者和使用者的概念,未单独规定作为大模型技术支持方的研发者,易导致两者在模型数据安全保障义务的责任边界模糊,不利于监管部门对两者开展监督与追责。

其三,如前文所言,数据安全是一个动态而非静态的概念,对大模型数据安全的风险治理也应相应地针对数据采集、模型训练以及应用服务三个阶段展开。但我国目前既有的管理规范多以大模型的应用服务为视角,强调模型应用过程中的数据安全以及个人信息保护,尚未建立起大模型运行全过程的数据安全风险防范体系。

4 我国大模型数据安全风险化解的法律因应路径

20世纪中叶,波兰尼提出的“双重运动理论”揭示了政府规制在市场发展与技术创新中的作用[27]。面对大模型带来的风险,应当确立的一个认知是,大模型并非一种简单的技术工具,更是一种对社会建构产生强烈冲击的新型社会权力。基于此,大模型的数据安全风险规制应摒弃纯粹的技术工具主义视角,而应针对我国既有的大模型监管路径的缺陷,结合国外大模型数据安全风险防范的有益经验,从建立分类监管方案、完善责任机制以及探索创新监管工具三个方面完善我国的大模型数据安全风险监管模式(如图2所示)。

图2 大模型数据安全的监管框架

其一,建立以数据安全风险为基准的分级监管路径。“安全”作为一个外延相对模糊的法律概念,通过类型化分析来精准度量其内涵成为一种理性且可欲的选择[28]。如前文所言,我国目前并未明确人工智能分级监管的具体标准,而欧盟则采用了基于人工智能应用场景的风险分级监管方式。然而,此种监管方式并不是特别适合应用于大模型领域,这主要是因为大模型技术具有泛用性,应用场景十分多元,若按照欧盟的分类标准,则几乎所有的大模型都将被归入高风险人工智能,难以实现对数据安全风险的精细化治理。鉴于数据将直接影响人工智能算法模型的训练效果和泛化能力[29],或可将大模型内含的数据安全风险程度纳入人工智能分级监管的评价标准,建立起以数据安全风险为基准的分级监管路径。具体而言,影响大模型数据安全风险程度的两个主要因素是大模型所采集和使用数据的敏感度以及训练数据集的规模。其中,数据的敏感度是指数据遭到攻击、篡改、破坏或非法获取和利用等安全事故后对个人、社会和国家带来的危害程度[30]。《个人信息保护法》根据个人信息的敏感程度将个人信息分为一般个人信息和敏感个人信息,《数据安全法》则将数据类型化为一般数据和重要数据。结合《个人信息保护法》和《数据安全法》的有关规定,可借鉴《上海市促进人工智能产业发展条例》第65条的规定,将大模型分为高风险和中低风险两类,前者涉及大规模的敏感个人信息和重要数据的处理行为,后者则仅在小范围内采集并处理一般个人信息和一般数据。对于高风险的大模型,国家采用负面清单制管理,开展负面清单内产品、服务的研发以及提供活动前,应当取得国家有关主管部门的行政许可;对于中低风险的大模型,则采用事前披露和事后跟踪的监管模式,促进先行先试。

其二,完善大模型运行全过程的数据安全责任机制。责任机制是法律开展制度设计所关注的核心内容。如前文所述,我国现阶段的大模型监管文件仅提及模型服务提供者以及使用者的安全责任,却忽视了大模型的技术研发者在数据安全保障中的作用。鉴于此,结合数据要素的动态特征,建议在现有的监管体制基础上对模型的服务提供者和技术研发者作区分处理,完善基于大模型运行全过程的数据安全责任机制。首先,在模型的数据采集阶段,模型的研发者应确保模型数据来源的合法性,涉及个人数据的应确保符合《个人信息保护法》的有关规定,涉及公共数据的则需要依据与政府签订的授权协议履行相关的数据安全保障义务,若数据系利用爬虫技术从公开互联网中获取则需要确保符合robots协议的要求;其次,模型训练与调整阶段,模型的研发者应采用必要的技术和组织措施保障数据安全,并在投放市场前进行数据安全测试;最后,在模型的应用服务阶段,模型服务的提供者应自行或委托第三方对模型数据来源的合规性开展形式审查[31],对于用户输入的数据则应当采取必要的保密和安全保障措施,若用户输入数据涉及个人信息的,则需要参照《个人信息保护法》的有关规定保障用户的撤回同意、查阅、复制、更正、删除等信息权益。

其三,探索以监管沙盒为代表的包容审慎监管措施。“包容审慎”原是政府为了应对互联网新业态的监管困境所提出的一项创新性监管原则,这种监管原则一方面鼓励、宽容、保护创新,为新业态、新产业留足发展空间,不得“简单封杀”;另一方面则强调要对新事物发展过程中所带来的潜在风险进行积极预防和控制,不得放任不管[32]。大模型是人工智能产业创新发展的产物,对于新兴事物,既要包容其失误,同时更要防范其风险,慎重处理好创新发展与风险控制之间的关系。基于这一理念,欧盟AIA法案提出了人工智能监管沙盒(AI Regulatory Sandbox)机制。通过这套机制,大模型在沙盒试运行阶段若遭遇个人数据的处理活动,只要满足一定条件便可以突破欧盟GDPR中有关信息主体授权的限制,将“为其他目的合法收集的个人数据”用于沙盒中人工智能系统的开发和测试中,意图实现数据利用与个人隐私保护之间的平衡。借鉴欧盟的做法,建议我国遵循包容审慎理念,探索大模型领域的“监管沙盒”制度。一方面,需要明确监管沙盒的“入盒”条件,此处可参考欧盟AIA法案中的有关规定,明确监管沙盒主要向保障公共安全、公共卫生、改善环境治理等重大公共利益的大模型或中小型企业研发的大模型开放;另一方面,需要进一步探索监管沙盒中运行机制、数据风险责任豁免机制、试运行期限、退出条件等内容,具体规则可以由国家网信办牵头,会同工信部、市场监管总局等相关部委制定[33]。

5 结束语

技术发展和法律规制之间的互动贯穿于时代发展的每一进程。大模型应用的智能时代已至,我们仍需谨记霍金所言:“人工智能的发展可能意味着人类的终结……它可以自主决定采取措施并以不断增长的速度重新设计自身。”为防止大模型异化为人类无法控制的“技术利维坦”[34],需要在对大模型应用的数据安全风险进行全面分析的基础上建立起“全过程”“多主体”的数据安全责任制度,并在创新发展与风险化解之间探寻出一个合适的平衡点,为大模型应用的可信未来提供坚实的法治保障。

猜你喜欢

数据安全个人信息人工智能
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
警惕个人信息泄露
云计算中基于用户隐私的数据安全保护方法
2019:人工智能
人工智能与就业
建立激励相容机制保护数据安全
数读人工智能
大数据云计算环境下的数据安全
下一幕,人工智能!