国家安全视阈下生成式人工智能的法治应对<br/>——以ChatGPT 为视角

国家安全视阈下生成式人工智能的法治应对
——以ChatGPT 为视角

2024-01-18孔祥承

法治研究 2023年5期

孔祥承

一、问题缘起：生成式人工智能的勃兴

在人类发展史上，第一次工业革命将水蒸气变成动力，实现了生产的机械化。第二次工业革命通过电力实现了大规模的生产。第三次工业革命使电子与信息技术得到普及，实现了生产自动化。①参见商周刊编辑：《聚焦“第四次工业革命”》，载《商周刊》2016 年第3-4 期。当下，人类社会正在经历第四次工业革命，此次革命的典型代表便是人工智能。②参见孙继荣：《责任时代：变革与创新》，中国经济出版社2018 年版，第615 页。1956 年，美国达特茅斯学院“如何用机器模拟人的智能”研讨会首次提出“人工智能”这一称谓，标志着人工智能学科的诞生。③参见国家网信办：《人工智能的历史、现状和未来》，http://www.cac.gov.cn/2019-02/16/c_1124122584.htm，2023 年4 月27 日访问。当时，对人工智能的基本设想是一种描述智能，并据此制造仿真机器。虽然后续各界对于人工智能概念的定义不尽相同，如有的学者将人工智能定义为由人类所制造的智能（机器的智能）。④参见钟义信：《人工智能：概念·方法·机遇》，载《科学通报》2017 年第22 期。但是，无论采取何种定义方式，算法、算力与数据始终是人工智能的核心要素，在它们不断迭代的基础上，人工智能展现出与人类相近的直觉、灵感与想象，对各类问题能够作出更为精准的回答。⑤参见崔铁军、李莎莎：《人工系统中数据—因素—算力—算法作用及相互关系研究》，载《智能系统学报》2022 年第4 期。

近年来，人工智能技术快速发展，深度学习技术被引入人工智能领域，生成式对抗网络（GAN）应运而生。在此背景下，生成式人工智能开始出现。与传统人工智能按照预设算法运行不同，生成式人工智能可以利用海量数据进行分析，通过机器学习自主地生成具备一定价值的内容。目前，为公众所熟知的ChatGPT 便是一种典型的生成式人工智能，它可以对文本等内容进行分析，并据此生成学术论文、文学作品、新闻稿件等材料，极大地提升了工作效率。OpenAI 公司的ChatGPT 一经问世便吸引了全球目光，并迅速成为人工智能领域的新宠。与此同时，各大科技公司也纷纷跟进，积极研发能够与ChatGPT 竞争的产品，例如百度公司的文心一言、谷歌公司的Bard 等产品。可以预见，这类生成式人工智能在未来必将成为新的产业热点。随着ChatGPT 等生成式人工智能的蓬勃发展，这类技术所伴生的问题也逐渐浮出水面，数据泄露、算法歧视、虚假信息、思想陷阱等问题开始显现。⑥参见於兴中、郑戈、丁晓东：《生成式人工智能与法律的六大议题：以ChatGPT 为例》，载《中国法律评论》2023 年第2 期。由于当下人工智能的规制主要针对的是传统人工智能，此时制度秩序与技术发展之间产生了脱节，人们在使用ChatGPT 等生成式人工智能时随时面临技术“反噬”的风险。

当前，多数国家已经意识到ChatGPT 等生成式人工智能背后潜藏的风险，尝试对其进行规制。从现有规制路径来看，大多以隐私安全或知识产权为视角，从算法规制与数据监管两方面入手对人工智能进行监管。⑦参见本报记者：《涉嫌侵犯隐私，意大利禁用ChatGPT》，载《南国早报》2023 年4 月3 日，第10 版。但是，与传统人工智能不同，ChatGPT 等生成式人工智能的风险并非仅限于算法或数据本身，还涉及到用于训练的基础数据以及生成的内容等多个方面。而且，多数生成式人工智能并非针对特定的环境或使用条件而设计，它们的开放性和低门槛性使其得以被大规模使用，其所蕴含的风险呈几何式扩张，有时甚至直接关涉国家安全。这类基于个人安全或产业安全而形成的“算法+数据”双重规制路径或许与生成式人工智能的监管需求不相匹配。

与此同时，我国对于ChatGPT 等生成式人工智能的规制也进行了有益尝试。国家网信办在2023 年4月发布《生成式人工智能服务管理办法（征求意见稿）》（以下简称《征求意见稿》），开始探索建立生成式人工智能的监管体系。需要注意的是，从《征求意见稿》文本来看，这种规制仍未摆脱基于个人安全或产业安全而形成的“算法+数据”双重规制的基本框架。实际上，ChatGPT 等生成式人工智能的出现已经引发了新一轮的技术革新，未来将会改写全球产业格局，重构各国科技竞争版图。早在2016 年，美国国家科技委员会（NSTC）便牵头起草并发布了《为人工智能的未来做好准备》《国家人工智能研究与发展战略计划》等重要报告，将人工智能的发展上升到国家竞争层面。⑧参见荆林波、杨征宇：《聊天机器人（ChatGPT）的溯源及展望》，载《财经智库》2023 年第1 期。笔者认为，国家安全是个人安全与产业安全的前提，在讨论生成式人工智能的规制路径时，应当跳出个人安全或产业安全的固有思维，重点从国家安全的角度平衡发展和治理问题。按照《征求意见稿》的定义，生成式人工智能含义较广，遍及文本、图片、音频、视频、代码等诸多领域，涉及到ChatGPT、Stable Diffusion、Synthesia、MusicLM 等相关产品。相较于其他生成式人工智能大多应用于专业领域，ChatGPT 以其适用的广泛性与低门槛性而备受瞩目。有鉴于此，笔者尝试以ChatGPT 为视角抛砖引玉，从历史、技术、风险等多个向度，厘清生成式人工智能的基本特征，并对其可能带来的国家安全风险进行系统全面剖析，重点从国家安全的角度探索生成式人工智能的法治应对策略，以期为后续政策制定提供有益参考。

二、ChatGPT 等生成式人工智能的形成及其特征

（一）ChatGPT 等生成式人工智能的历史沿革

ChatGPT 的发展并非是一蹴而就的，而是经历了数个阶段的发展历程。自然语言处理是人工智能领域的一个重要组成部分，包括语音识别、网络搜索、自动问答和机器翻译等多个应用场景。无论是何种场景，考虑到语言本身充满歧义，且依赖于语境与交谈人的背景，如何理解和使用自然语言成为当时人工智能发展面临的一项重要挑战。在最初的几十年间，自然语言处理的相关研究主要集中在符号化与规则化等方面，即给定语法和其他语言规则，要求机器将这些规则运用到用户输入的语句上，达到机器能够“读懂”语言的效果。从成效来看，这些方法在效果上并不尽如人意。一方面，规则和语法的输入难以解决语言中的情感倾向、背景知识等问题。另一方面，传统的自然语言处理模型采用一种记住已阅读上文的同时，理解正在阅读的下文的方式来进行语言读取，亦即要求机器通过每一个单词的读取和反馈来提取总结整个句子的含义。这种方式使得在处理较长句子时无法获取单词或短语之间的语义关系，难以捕获长句的重点。尽管OpenAI 公司在2016 年便提出制造“通用”机器人的构想，但实际上并未取得实质性的进展。⑨参见网易科技：《OpenAI 宣称将制造“通用”机器人》，https://www.163.com/tech/article/BQ2HQGHC00097U81.html，2023 年3 月21 日访问。2017 年谷歌公司推出了Transformer 训练模型才使得该构想成为可能。不同于以往的自然语言处理模型，Transformer 引入了自我注意机制（self-Attention）使得机器在阅读过程中能够进行并行化运算，摆脱了以往“断章取义”的尴尬境况。

在Transformer 模型基础上，2018 年OpenAI 公司推出了GPT-1。该产品主要在算法设计思路上有所创新。在GPT-1 之前，传统的自然语言处理模型通常采取有监督学习的方式，但是这种学习模式存在两个缺点。其一，需要大量高质量的标注数据，而实际上这类优质的标注数据往往难以获取，且耗费成本较大。其二，任务方向偏重专业化，难以推广至其他相关领域。GPT-1 则采取了一种类似半监督学习的方式，利用多层神经网络技术，通过在大规模无标注数据上进行预训练，形成生成式自然语言处理模型，然后再根据特定任务对其进行微调。⑩参见林懿伦、戴星原、李力、王晓、王飞跃：《人工智能研究的新前线：生成式对抗网络》，载《自动化学报》2018 年第5 期。在这种模式下，仅需要技术人员的微调而非对数据进行逐个标注，就能实现语言训练的效果，极大提升了学习效率。不过，此时的GPT-1 尚不成熟，其处理能力与有微调的有监督学习相比并未取得明显优势。

2019 年，OpenAI 公司推出了GPT-2，目标在于训练一个适用任务范围更为广泛的模型。GPT-2 并没有对GPT-1 的进行更多“革命性”的结构创新，只是使用了更多的参数和更大的数据集。⑪参见邓莎莎、李镇宇、潘煜：《ChatGPT 和AI 生成内容：科学研究应该采用还是抵制》，载《上海管理科学》2023 年第2 期。GPT-2 更多强调通过无监督学习的预训练模型，完成有监督的任务。换言之，研发者认为所有的有监督学习都是无监督语言模型的一个子集，当一个语言模型的容量足够大时，它就足以覆盖所有的有监督任务。在海量数据集的加持下，GPT-2 确实比GPT-1 表现的更为出色，甚至可以生成虚假新闻、钓鱼邮件或用于在线角色扮演。⑫参见荆林波、杨征宇：《聊天机器人（ChatGPT）的溯源及展望》，载《财经智库》2023 年第1 期。2020 年，OpenAI 公司又推出了GPT-3，其以抢眼的表现成功吸引了人工智能产业界的关注。GPT-3 与GPT-2 的架构基本一致，但是在参数、文本长度方面都有了显著提升，其中参数高达1750 亿。同时，在机器自主学习的基础上，加入人工因素来监督机器学习。即在机器给出结果后，由训练人员对结果做出评价并展开优化，使之更贴合对话内容。在数据、算法双重加持下，GPT-3 在各种测试中表现优异，已经可以完成绝大部分自然语言处理任务。⑬Brown,et al.Language models are few-shot learners,Advances in neural information processing systems,2020,33。2021 年，OpenAI 公司又推出了GPT-3.5 作为GPT-3 的升级版本，其在模型大小、语言理解和生成能力等方面都有了较大提升，2022 年OpenAI 公司基于该模型发布了ChatGPT。不过需要注意的是，GPT-3.5 与GPT-3 并无代际差距，更多是为了未来更为先进的GPT-X进行预热。2023 年，OpenAI 公司又继续推出了GPT-4。虽然OpenAI 公司未再透露详尽的技术细节，只是简单描述GPT-4 模型与GPT 系列模型一致，使用公开可用的数据（例如互联网数据）以及已获得许可的数据进行训练。但是，OpenAI 公司也提到了几个关键的改进，如智能程度大幅跃迁可以接受图片输入，看图能力更强；输入文本更长，可以处理文字长度显著增加；等等。⑭参见OpenAI 公司：https://openai.com/product/gpt-4，2023 年3 月23 日访问。可以想见，虽然GPT-4 不会摆脱既有GPT 系列模型框架，但是未来一定会在理解力、可靠性方面有着更为杰出的表现。

（二）ChatGPT 等生成式人工智能的基本特征

第一，训练数据日趋庞大。数据是所有人工智能生发的基本“养料”，只有大量地投喂基础数据，才能有效训练人工智能并及时予以监督，以期不断增进其生成能力。一般而言，数据量的多寡与生成内容的精准性成正比。前文述及，根据OpenAI 公司公布的数据，GPT-3 使用了1750 亿的参数量，只有依靠这种愈发庞大的基础数据才能使生成式人工智能“见多识广”，更好地提升自身精准度。

第二，训练模式发生变革。传统的自然语言处理模型需要对数据进行大规模、高质量的标注，才能使机器了解词语的大概含义。而这种训练成本过高，且生成内容效果不佳。而ChatGPT 引入了RLHF（从人类反馈中强化学习），该方法通过在大数据预训练下加强人类反馈，通过微调使得结果更具效率和针对性，使得ChatGPT 生成内容的范围、有效性和准确度都有了大幅提升。⑮参见蒋华林：《人工智能聊天机器人对科研成果与人才评价的影响研究——基于ChatGPT、Microsoft Bing 视角分析》，载《重庆大学学报（社会科学版）》2023 年第2 期。详言之，一方面，在初始情况下，它不需要任何人工标注的数据，而是通过对海量数据进行预测语言规则和模式来进行自我学习。另一方面，在自我学习的过程中，训练人员会对ChatGPT 生成的回答进行评估和反馈，针对具体回答进行微调，以帮助模型进行强化学习和不断优化。通过这种方式，ChatGPT 能够逐步学习到人类习惯的语言表达方式，从而生成更加符合人类期望的回答。当然，“投喂”数据的质量基本依靠研发者和相关技术人员把关。换言之，ChatGPT“三观”严重依赖研发者的形塑。而这种模式也带来了一些隐藏风险，只要任何一个环节发生问题，都会使得生成内容出现不可控性。

通过对ChatGPT 的历史回溯以及其基本特征的梳理不难发现，这类技术本质上是以海量数据为基础，依赖相关算法得出运算结果，在基础模型方面并不具备较多的创新性。但是，基于这种组合出现的产品却降低了部分技术的使用门槛，一些技术不再是专业人员的禁脔，而为一般公众所掌握。⑯参见张凌寒：《深度合成治理的逻辑更新与体系迭代——ChatGPT 等生成型人工智能治理的中国路径》，载《法律科学》2023年第3 期。ChatGPT 等生成式人工智能将在公共管理、教育、司法、医疗、工业生产等众多领域大有作为。就ChatGPT 的具体适用来看，其在私领域，可以辅助公众进行文本写作，在法律方面则可以为弱势群体提供法律帮助，实现普惠司法。在公领域，其可以为公众提供一般政府服务，具体到在法律层面，则可以促进司法机关智慧司法建设，辅助法官从事司法审判工作。同时，这种适用的广泛性以及使用主体的非特定性，加之其可能带来的不良影响，加深了公众对ChatGPT 等生成式人工智能的使用忧虑，其内生的国家安全风险较为突出。

三、ChatGPT 等生成式人工智能的国家安全风险挑战

（一）ChatGPT 等生成式人工智能的国家安全风险识别

1.强人机交互加大政治安全风险

强人机交互性是ChatGPT 等生成式人工智能的显著特征，意指用户使用ChatGPT 等生成式人工智能的过程，同时也是人工智能自身不断学习的过程。在ChatGPT 等生成式人工智能与用户对话的过程中，会按照用户的习惯来改进生成内容的质量，以便能够更好地满足用户的使用习惯。换言之，ChatGPT 等生成式人工智能会根据用户提出的要求来修正自己的运算结果，这在某种程度上使得每一名用户都成为潜在的人工智能学习训练人员。在使用ChatGPT 的过程中，如果用户故意向ChatGPT“投喂”虚假、有害的信息，那么之后其他用户在使用ChatGPT 获取相关内容时，也会受到之前虚假、有害信息的影响。例如，如果有足够数量的用户在短时间内向ChatGPT 输入“鲁智深去西天取经”的虚假信息，那么ChatGPT 便会自行修正之前的正确答案，为之后的用户生成“去西天取经的人是鲁智深”这类虚假内容。

设若将类似的场景迁移至政治领域，那么后果将不堪设想。可以预见，在未来国家之间的竞争中，如果将ChatGPT 等生成式人工智能作为舆论工具，通过数据投毒的方式，生成包含“恶意”的内容，那么其带来的危害将难以估量。实际上，这一预想正在逐渐转化为现实。国内部分用户将涉政治类信息输入ChatGPT 后，发现其生成的内容以美国价值观为导向，极力维护美国自身利益。如在如何看待朝鲜战争的问题上，ChatGPT 生成的内容便是褒扬美军的行为，而对志愿军持否定意见。⑰参见网易新闻：《国内不能用ChatGPT 是因为它危害国家安全？？？还真是！！》，https://www.163.com/dy/article/HT586OJV05434Z5U.html，2023 年3 月21 日访问。从这一点来看，如果不对其进行严格监管，必将导致大量有毒信息出现，控制舆论导向，甚至影响公共决策。

2.人工智能对抗引发军事安全忧虑

如前所述，世界范围内的第四次工业革命发生在人工智能领域，与视觉识别、无人驾驶相比，可以多场景运用的生成式人工智能有着更加明朗的应用前景。未来各国无疑会将生成式人工智能作为军事、经济、教育等重要应用领域的关键，生成式人工智能的研发与应用程度必将成为衡量国家综合实力的关键指标。一方面，发达国家希望捍卫自身的技术优势，另一方面发展中国家则期望通过加紧开发生成式人工智能来实现弯道超车。这种国家之间的竞争态势将进一步改变全球各个国家的强弱格局，触发人工智能领域的军事竞争。从经济理性角度来看，各国为占据竞争优势，可能会忽视其可能带来的法律政策、科技伦理等问题，径行将ChatGPT 等生成式人工智能用于情报战与信息战。而且，传统人工智能本身就蕴含侵犯公民隐私等风险，在“生存性焦虑”被放大为“生存性威胁”的当下，这些固有风险将呈指数级增长。⑱参见张纪腾：《新局与危局：人工智能的国家安全问题思辨》，载《信息安全与通信保密》2021 年第5 期。甚至在未来，生成式人工智能或将被嵌入到无人机、自动制导或者其他战略决策性武器之中，被创造成全新的“智能应答型武器”，进一步改变战争样态，加剧地区安全风险。⑲The National Security Commission on Artificial Intelligence,AI's Final Report,https://digital.library.unt.edu/ark:/67531/metadc1851188/.

3.依靠海量数据训练增加数据安全风险

数据安全风险同样也是ChatGPT 等生成式人工智能技术不得不面对的问题。数据安全不仅与每一位公民切身利益相关，影响公民的幸福感与获得感，更与国家安全息息相关。前文述及，ChatGPT 等生成式人工智能的学习需要依靠海量数据支撑，以此才能实现自身的不断优化。尤其是，ChatGPT 等生成式人工智能具备强人机交互性，用户的使用过程同时也是人工智能对数据的收集过程。传统人工智能在用户使用之前，虽然同样需要使用大量数据，但是由于其多为“量身定做”，所以通常明确要求用户需放弃一部分自身数据权利，在用户同意放弃的基础上，收集其聊天记录、账户信息、上网记录等信息，再通过数据聚合分析技术生成用户画像。但是，ChatGPT 等生成式人工智能更多的是在无形中收集有关数据，因为用户的使用过程本身就是向其提供数据的过程。在数据采集范围方面，与传统人工智能必须获得许可采集数据不同，生成式人工智能大都采取“原则+例外”的方式进行采集。即默认用户同意在使用过程中采集相关数据，如果存在异议，需要单独向有关机构申明。如根据OpenAI 公司的隐私政策，用户在使用ChatGPT时，会被采集有关用户访问、使用或互动的信息，ChatGPT 会使用每个客户的一小部分数据样本来提高模型性能，用户若不希望数据用于提高性能，需要单独通过邮件向OpenAI 公司发送申请。⑳参见陈兵、林思宇：《如何看待ChatGPT 爆火背后潜在的法律风险》，https://www.yicai.com/news/101681506.html，2023 年3 月23日访问。在这种情形下，数据安全泄漏的风险急剧增加。例如，向ChatGPT 询问一道高考题目的解法，就有可能向其暴露了国籍、年龄等信息；要求ChatGPT 写一篇论文的摘要，就可能暴露所学专业、工作单位等信息。而且，这些都是无须许可，在用户尚未觉察之际已经完成数据采集。随着未来ChatGPT 等生成式人工智能用户数量的暴增，其采集和存储的用户数据将变得非常庞大，国家安全风险剧增。具体而言，一方面，数据跨境流动监管失序。如在使用ChatGPT 等生成式人工智能过程中，可以规避所在国数据监管机制，实现无限制的数据自由跨境移动。另一方面，泄漏国家重要数据。重要国家安全领域的相关人员使用ChatGPT 等生成式人工智能，可能将直接泄漏国家安全信息。

4.高度语料依赖性带来文化安全危机

人工智能大多依赖基础数据进行训练，所以本身存在数据偏见的问题。所谓数据偏见，意指生成式人工智能所使用的基础数据不客观、不完整的问题，这将严重影响数据分析质量。㉑William S.Isaac,Hope,Hype,and Fear: The Promise and Potential Pitfalls of Artificial Intelligence in Criminal Justice,Ohio State Journal of Criminal Law，vol.15，No.2，2018，p553。如果将人工智能的运算过程看作“烹饪”，那么向人工智能提供的基础数据就是“食材”，掌握客观的基础数据后才能烹饪出“色香味俱全”的结果。㉒参见王立、杨令一：《大数据背景下预测性警务的实践样态与风险规制》，载《警学研究》2022 年第5 期。但是，如果基础数据本身就存在偏见，那么系统运行的结果也必然是歧视性的。如在基础数据提供上，将某些种族、某些肤色或者有过某些经历、较低学历者等打上犯罪高发人群的标签，那么即使算法中立，最终的运算结果也是充满偏见的。“将贫困、家庭状况、种族或民族、社会经济地位等维度输入进去……从这个角度说，犯罪人预测是显失公平正义的，他们被预测是危险的‘犯罪人’并据此受到惩罚，不是因为他们做过什么，而是因为他们是谁、他们的家庭怎么样以及他们的口袋里有多少钱。”㉓Sonja Starr,The Odds of Justice：Actuarial Risk Prediction and the Criminal Justice System,CHANCE,2016,29（1）,p49-51.以偏见数据为基础得到的结果，必然生成存在偏见的内容。

事实上，生成式人工智能在数据偏见上存在的问题较之以往可能更为突出。虽然传统人工智能的发展也依赖于对数据的占有，但是生成式人工智能所占有的数据较之以往呈现出几何级增长。㉔数据来源于腾讯《AIGC 发展报告 2023》。如果基础数据存在问题，那么即使依据适当的算法也可能会生成有害或者有偏见的内容，尤其是这种算法偏见产生的负面影响会随着技术的广泛运用而不断扩大。譬如，ChatGPT 给予的答复中存在性别歧视和种族歧视的问题，可能会误导使用者将具有歧视性的回答视为“正确答案”而作出错误的决断，进而对社会认知和伦理产生负面影响，甚至冲击国家主流价值与文化。㉕同前注⑳。特别是在对基础数据筛选的过程中，由于中西文化的根源及演进路径不同，研发者可能会对体现西方立场的观点和数据持肯定态度，而忽视来自其他不同立场的数据，这种源自于研发者的数据偏见会在生成式人工智能的加持下进一步扩张。尤其是，当这种歧视性观点延伸至意识形态领域，那么这些蕴含西方意识形态的内容将通过隐性的方式传播，使得我国原本的意识形态防范机制失效，对国家安全所带来的危害后果将是难以估量的。㉖参见钟祥铭、方兴东、顾烨烨：《ChatGPT 的治理挑战与对策研究——智能传播的“科林格里奇困境”与突破路径》，载《传媒观察》2023 年第3 期。

（二）现有规制模式应对国家安全风险不足

1.域外规制经验

《欧盟人工智能法案》（Artificial Intelligence Act）设计了一种基于风险的分级规制模式，将人工智能分为禁止、高风险、中风险、低风险等类型，分别采取不同的数据与算法的规制方式。㉗参见曾雄、梁正、张辉：《欧盟人工智能的规制路径及其对我国的启示——以〈人工智能法案〉为分析对象》，载《电子政务》2022 年第9 期。在算法方面，该法案强化了透明度要求和问责机制，要求人工智能的研发者和使用者必须提供具备透明性与可解释性的算法，一旦出现问题，相关人员应当承担责任。在数据方面，该法案则再次重申了数据的隐私保护理念，对数据获取、数据控制、数据安全和数据删除等问题都做了较为细致的要求。

与之相应，近年来美国对人工智能的监管也采取较为积极的态势。从旨在保护个人数据和限制监控的《人工智能权利法案》（AI Bill of Rights）到《平台问责制和透明度法案》（Platform Accountability and Transparency Act），再到美国商务部下属国家电信与信息管理局（NTIA）《人工智能问责政策征求意见》（AI Accountability Policy Request for Comment），不难发现美国与欧盟似乎在此问题的认识正在逐步趋同。㉘同前注㉖。特别是美欧贸易和技术委员会（TTC）成立以来，这种监管政策同标的情形日益明显。

不过，前述模式在治理生成式人工智能方面的问题也较为突出。以《欧盟人工智能法案》为例，该法案过于倚重企业自治，强调对个人安全与行业安全的保障，缺乏从国家层面开展的外部监管。㉙同前注㉗。再如，该法案采取“数据+算法”双重规制模式，忽视对两者交叉领域的监管以及对生成内容的监管。

2.我国生成式人工智能规制现状

早在2017 年，国务院便发布《新一代人工智能发展规划》，明确了我国人工智能发展的基本框架。其后，为了应对人工智能带来的治理难题，我国在2022 年出台了《互联网信息服务算法推荐管理规定》（以下简称《算法推荐规定》）《互联网信息服务深度合成管理规定》（以下简称《深度合成规定》）等规定，通过对算法推荐以及深度合成技术的治理，尝试对类生成式人工智能进行规制。就现有规制路径而言，大都未能超脱以往算法规制的范畴。

2023 年《征求意见稿》对生成式人工智能服务提供者延续了此前《算法推荐规定》《深度合成规定》对算法推荐服务提供者以及深度合成服务提供者相类似的监管态度。与《欧盟人工智能法案》确立的分级管理不同，《征求意见稿》更多强调不区分具体应用场景，采取统一规制模式。虽然从文本来看，《征求意见稿》开始关切生成式人工智能的生成内容问题，但是仍未脱离“数据+算法”双重规制模式，其重点依然聚焦于个人安全与行业安全的保障。然而，对于ChatGPT 等生成式人工智能而言，单纯“数据+算法”的双重规制模式忽视了数据与算法相互交融的阶段。而且，单纯从个人安全或行业安全角度进行规范未免较为狭窄。尤其是，在这种理念影响下，对于人工智能的监管由国家网信部门牵头，缺乏系统性与体系性，应当从总体国家安全观出发开展顶层设计，营造一个良好的人工智能发展环境。当然，安全与发展应当相协调，未来应当确立的是一种多元包容的生成式人工智能规制模式，既要满足自身经济发展需要，又要兼顾国家安全保障要求。㉚参见李晓楠、宋阳：《国家安全视域下数据出境审查规则研究》，载《情报杂志》2021 年第10 期。

四、ChatGPT 等生成式人工智能规制的法治化进路

（一）强调国家安全战略，谋划产权布局

我国高度重视人工智能发展，早在2017 年便明确提出“到2030 年，人工智能理论、技术与应用总体达到世界领先水平，成为世界主要人工智能创新中心”的发展目标，这充分表明了我国希望通过发展本国人工智能科技来提升国家综合实力，实现中华民族伟大复兴的美好愿景。㉛参见徐璐、朱炳元：《人工智能的马克思主义分析和解读》，载《广西社会科学》2022 年第11 期。但从整个行业来看，目前我国人工智能发展主要集中在应用场域，在底层架构上并未有太多创新点出现。尤其是在生成式人工智能领域，国内百度、腾讯、科大讯飞等科技公司都跟风研发对标ChatGPT 的人工智能产品。但是无论是现在生成式人工智能最常用的各种训练算法，还是 Transformer 等重要模型，不少都是出自于国外的研发团队（尤其是大企业团队），对比之下，我国在这些核心技术领域的贡献则较少。㉜参见陈永伟：《超越ChatGPT：生成式AI 的机遇、风险与挑战》，载《山东大学学报（哲学社会科学版）》2023 年第3 期。虽然所有的这些算法和架构都已作了开源化，可以供全世界研发者使用，但如果国际形势发生变化，不难想象如今中国半导体行业所遭遇的“卡脖子”困境会再次出现。㉝参见武延军：《开源软件供应链重大基础设施建设势在必行》，载《中国科学报》2021 年5 月6 日，第3 版。而且，自微软注资OpenAI 后，最新的技术已经不再进行开源共享，这就为我们敲响了警钟。从整体国家安全战略来看，如果我国在生成式人工智能领域缺乏核心技术资源，将难以应对国际竞争。如果防范国外技术垄断是对未来风险的未雨绸缪，那么当下更加紧迫的问题是，避免陷入路径依赖，力争在生成式人工智能领域实现弯道超车。㉞参见黄蕊、徐倩、赵意：《“人工智能+”模式下我国传统产业的效率锁定与解锁——基于路径依赖理论视域》，载《经济问题》2020 年第2 期。为此，可以从以下两个维度予以完善：

第一，构建生成式人工智能研发许可制度，限定研发机构资格。应当避免在科技领域的各自为战，摆脱注重短期激励驱动的追赶模式，充分发挥我们的制度优势，集中力量办大事，许可部分有能力、可信赖的企业开展生成式人工智能的研发。同时，这种限制也可以确保监管质量，避免出现蜂拥而上、监管失序的情形。

第二，建立正向激励机制，聚焦人工智能领域知识产权保护。对于人工智能发展而言，最急迫、最为有效的便是知识产权保护，因为保护知识产权就意味着保护创新。㉟参见中共中国科学院党组：《保护知识产权就是保护创新》，载《求是》2021 年第3 期。只有在完善的知识产权体系的保护下，才能更好地促进生成式人工智能领域的科技研发。但在人工智能技术蓬勃发展的态势下，我国仍存在知识产权整体质量不佳等问题。㊱参见易继明：《新时代中国特色知识产权发展之路》，载《政法论丛》2022 年第1 期。为此，应着力做到以下几点：

首先，要加强知识产权保护工作顶层设计。加强关键领域自主知识产权创造和储备，将生成式人工智能领域的产权保护作为国家重点工程予以高度重视。其次，要完善现行法律规范体系。完备的知识产权法律法规体系、高效的执法司法体系，是强化知识产权保护的重要保障。要在严格执行《民法典》相关规定的同时，加快完善相关法律法规，通过相关专门性法律的修订将生成式人工智能的相关产权保护问题纳入到保护当中，构建完善的知识产权保护体系。㊲同上注。最后，维护知识产权领域国家安全。要加强事关国家安全的关键核心技术的自主研发和保护，依法管理涉及国家安全的知识产权对外转让行为。要完善知识产权反垄断、公平竞争相关法律法规和政策措施，形成正当有力的制约手段。㊳参见习近平：《全面加强知识产权保护工作激发创新活力推动构建新发展格局》，载《求是》2021 年第3 期。

（二）强调国家利益优先，打破人工智能算法黑箱

在生成式人工智能的应用场域中，强人机交互特征使得生成式人工智能无时无刻不面临着被信息投毒的风险，也进一步使国家时刻处于虚假信息传播的风险当中。随着人工智能的普及，生成式人工智能的用户将呈现出爆炸性的增长趋势。一种可行的规制路径便是延续既有方式，打破目前存在的算法黑箱，对研发者的算法进行监管。自人工智能产生以来，算法黑箱便是一个不断被提及的问题，而这次ChatGPT 等生成式人工智能更是将人们对这一问题的疑虑提到了一个新的高度。

所谓的算法黑箱是指在人工智能技术开发与应用过程中，用户只能获知运算结果，只有设计者本人才能知晓运算过程，双方存在信息鸿沟。㊴参见［美］弗兰克·帕斯奎尔：《黑箱社会：控制金钱和信息的数据法则》，赵亚见译，中信出版社2015 年版，第6页。换言之，由于算法黑箱的存在，用户只能被动接受结果，但却不知道结果是怎么产生的，这样就使得用户不易发现问题并对结果进行质疑和修正。由于算法具备极强的专业性，一般公众难以对算法的正当性进行检视。在某种意义上，算法应用的深入推广无疑使得人类已经处于一个被“ 算法吞噬的世界”，不得不面临算法黑箱带来的算法歧视、算法偏见等问题。㊵B.Bodo et al.Tackling the Algorithmic Control Crisisthe Technical，Legal，and Ethical Challenges of Research into Algorithmic Agents,Yale Journal of Law and Technology,vol.19,no.1,2017,p136-138。研发者结合自身的经历、主观感知，在编写算法的过程中会不可避免地融入自己的价值判断或者偏好，这就使得算法偏见、算法歧视难以避免。㊶参见李训虎：《刑事司法人工智能的包容性规制》，载《中国社会科学》2021 年第2 期。

在商业领域，研发者总是以商业秘密等理由拒绝公开算法，但是这些理由在国家安全面前都是不成立的。在国家利益面前，必须允许公权力为代表的国家机关对研发者的算法进行规制。㊷参见张凌寒：《算法规制的迭代与革新》，载《法学论坛》2019 年第2期。虽然《网络安全法》《数据安全法》《算法推荐规定》以及《征求意见稿》都提到了算法规制，但是现有规范存在法律体系不统一、监管行政力量过于单薄的问题。笔者认为，为了从国家安全角度实现有效的算法规制，应当做到以下几点：

其一，应当建立统一的人工智能算法规制法律体系。目前的法律虽然对算法问题有所提及，但是各个条文分散在不同法律当中，难免存在相互龃龉之处，无法形成制度合力。未来，应当制定专门的人工智能算法规制法律规范，对不同领域内人工智能的算法进行分级分类评估，然后按照成文法予以规范，要求行政部门按照法律对可能危害国家安全的算法予以监管评估，并有权要求平台修正。㊸参见丁晓东：《论算法的法律规制》，载《中国社会科学》2020 年第12 期。其二，应当建立人工智能专责机关。现有生成式人工智能的监管主体是网信部门，但是仅仅依靠网信部门力量难免会力有不逮。应当确立“一主多辅”的架构，吸纳公安机关、市场监督管理机关、国家安全机关等部门参与到算法规制当中。将网信部门作为算法规制的牵头部门，启动进行各个领域内人工智能的算法规制。而各个行政监管机关也应当主动履行算法监管与规制的责任，在算法的设计、使用、反馈等关键环节，都要深度参与，对算法中可能影响国家安全的部分提前予以修正或删除，防范虚假政治信息的传播风险。此外，监管部门也应当充分利用行政手段或刑事手段，对拒不配合或不主动配合公开算法且可能危害公共安全的机构和个人予以严厉处罚，以最大程度地确保研发者在可能危害国家安全的情况下主动公开算法，接受政府监督。更为重要的是，未来待时机成熟，应当建立专门人工智能监管机构专事人工智能算法监管。其三，明确算法审查标准。对于算法的公开程度应当采取相对审慎的态度。以《征求意见稿》第17 条提供“必要信息”为例，当前公众对生成式人工智能算法的忧惧大多源于无法探知机器学习的深层逻辑。无论研发者主动公开还是强制公开，其作用都非常有限，一味强调透明度要求，可能导致对知识产权保护的失衡。在此情况下，应当以算法一致性作为标准。即算法备案后，研发者应当保障备案算法与后续算法存在一致性，如有变化，应当及时告知有关部门。㊹参见刘东亮：《技术性正当程序：人工智能时代程序法和算法的双重变奏》，载《比较法研究》2020 年第5 期。

（三）强调国家监管义务，强化数据监管责任

首先，应当明确设置独立、专门的数据监管机构，以使其能够有效实施数据监管行为。目前我国《数据安全法》与《网络安全法》均规定，国家网信部门对数据安全工作进行统筹协调。但是在实务中，许多数据来自金融、公共卫生领域，需要具有较高的专业知识才能进行识别和管控，由于网信部门工作人员缺乏这些专业知识，所以监管效果不佳。现阶段，可以考虑依托国家数据局进行统一监管。待未来条件许可，由前文提及的专门人工智能监管机构同时负责数据与算法的监管工作，避免出现相互掣肘的情形。

其次，建立完善的数据安全审查标准。在启动方式上，可以采用有权机关依职权主动启动审查与生成式人工智能研发者依申请被动启动审查两种方式，这样能够使启动方式更加灵活，便于管理。另外，数据安全审查的启动标准应当与数据安全审查标准相区分，启动标准应当较审查标准更加宽松，采取“宽进严出”的方式。这样在审查的启动上，可以尽可能地将数据流转、采集行为纳入审查范围，只要认为“有可能”侵犯国家安全便可以启动审查程序。但在具体审查程序中，必须严格按照法律提前设定的标准如敏感信息种类、规模等进行审查，不得笼统地使用“有可能损害”的标准规制数据流通，减损数据自身价值。

最后，应当进一步重视完善数据监管行政处罚体系。在设计数据监管行政处罚体系时，应当严格遵循比例原则，明确行政处罚本身不是目的，减少使用刑罚工具，引导生成式人工智能研发者在数据处理中进行合规改造，更好地投入经济生产才是最终目的。为了规范生成式人工智能研发者的数据处理行为，可以对主动申请数据审查的生成式人工智能研发者与被动接受审查的研发者予以不同对待，比如主动申请数据审查，如果被查出问题便可以通过事后的合规整改来避免行政处罚结果，另外也可以在项目建设、招投标等方面对主动接受数据合规审查的研发者予以适当的政策倾斜，以此来引导研发者主动参与其中。

（四）强调赋予公民权利，加强基础数据监管

由于生成式人工智能对海量数据的控制，在数据方面还会产生基础数据存在偏见的问题。如果说数据泄露、重要数据跨境流动等属于动态的风险，那么基础数据训练就是数据的静态风险。如前所述，生成式人工智能的发展与传统人工智能一样依靠大规模的数据进行训练，而且所需要的数据要远远超过传统人工智能所需的数据规模，这也就导致了如果基础数据出现问题，那么人工智能的输出结果也会有问题。对于基础数据的监管不宜采用之前的路径交给行政部门履行国家义务，而应当结合公民私权利进行运作。其一，虽然基础数据大多属于公共领域，公权力机关能够核实，但是逐一核实成本过于高昂，而公民因熟悉各自信息，方便行权。其二，基础数据产生问题会导致输出的结果产生争议，该争议在用户使用的过程中最容易被发现，如果将规范的义务交给公权力机关可能产生监管不及时的问题。生成式人工智能需要算法和基础数据相结合才能生成结果，对于用户而言，也许对算法这样“高深”的专业领域并不了解，无法提出意见，但对基础数据这种常识水平的内容完全有能力进行讨论与修正。

当然，强调赋予公民权利也并非是毫无限制的，过度赋权有可能会阻碍生成式人工智能的发展。所以必须寻找公民权利与人工智能发展的一个平衡点。笔者认为应当将“以人民为中心”的理念贯彻到生成式人工智能发展的过程当中。具体而言，便是着重保障个人用户的知悉权与更正权。生成式人工智能的用户作为服务消费者，理应有知悉结果产生过程的权利。就像购买食品，消费者当然有权利知悉购买食品的配料成分表，这样才能使用户有信心使用自己所购买的产品或者服务。如果公民对于生成结果存有异议，就有权利对人工智能生成的结果发起挑战，如果基础数据确实有问题，就应当由用户对有问题的基础数据进行更正。可以说知悉权与更正权二者是相互联系相互依存的。对于生成式人工智能来说，知悉过程是用户行使其权利的基础，也是信息主体充分行使信息权的前提条件，是信息主体寻求法律救济的基础性权利。㊺参见程雷：《大数据侦查的法律控制》，载《中国社会科学》2018 年第11 期。而更正权产生于知悉权之上，是由用户个体来确保数据质量的重要机制，知悉过程后对有问题的基础数据予以更正，为此方可保障生成内容的质量。