ChatGPT冲击下敏感个人信息的应对与保护

2023-11-12张炜羿

湖北经济学院学报·人文社科版 2023年9期

摘要：人工智能聊天机器人ChatGPT横空出世，瞬间成为全世界关注的焦点，全球用户量激增的背后，也蕴含了人们对于个人信息安全的担忧，特别是对敏感个人信息的保护问题。ChatGPT利用网络爬虫采集互联网数据引发合法性与合规性的争议，算法黑箱的不透明性始终挑战着数据处理透明化的原则，而深究冲突的本质，是人工智能时代下数据的自由流通、共享与敏感个人信息保护之间的矛盾。为此，在规范网络爬虫的使用、提高人工智能算法透明度的同时，也要加强对人工智能各个阶段的监管与问责以提高ChatGPT和类ChatGPT系统保护敏感个人信息的安全性和可信性。

关键词：ChatGPT;人工智能;敏感个人信息;《个人信息保护法》

2022年11月，美国人工智能公司Open AI推出了人工智能聊天机器人程序ChatGPT。ChatGPT在正式上线的第一周用户数量便突破百万，两个月内全球活跃用户数量破亿，打败TikTok（抖音海外版）和Instagram（照片墙），成为史上用户数增速最快的应用程序，被誉为“继2016年打败人类围棋冠军的AlphaGo之后，人工智能的又一重要突破”。并迅速引领新一代人工智能发展的浪潮。2023年初，微软成功将ChatGPT接入其搜索引擎Bing中，在短短14个小时内被推上了美国iOS下载总榜的第23名;几乎同一时间，谷歌CEO官宣了其对标ChatGPT的产品——巴德（Bard）;Meta首席执行官马克·扎克伯格表示，他的目标是让Meta成为内容生成式人工智能的领导者。国内层面，百度、阿里巴巴等科技公司也正在投入大量人力物力研发类ChatGPT系统。

ChatGPT不仅代表了AIGC（AI Generated Content，人工智能内容生成）技术的最新成果和当前自然语言生成式AI发展的最高成就，而且带来了商业模式的创新和产业结构的升级;但同时以ChatGPT为代表的内容生成式AI也在不断挑战着社会伦理的界限和数据安全的底线，ChatGPT需要在海量自然语言数据基础上进行训练，并使用机器学习算法生成与训练数据相似的新内容。这些语料库大部分来自互联网抓取，原始数据的抓取是否合法？如何在人工智能时代实现数据的流通共享与个人信息的保护？本文将以ChatGPT的诞生、发展为切入口，探讨ChatGPT冲击之下如何保护敏感个人信息。

一、ChatGPT的基本概念和技术架构

（一）何为ChatGPT

ChatGPT全称为“Chat Generative Pre-trained Transformed”，是一款基于GPT-3.5语言模型的聊天机器人。ChatGPT可以处理自然语言，与用户进行沟通，当用户输入指令（Prompt）后，它可以准确理解用户意图，根据指令生成或长或短的回答，并可以与其他AIGC联动，生成图片、视频等。ChatGPT不僅可以应用于日常对话，还可以进行语言翻译、撰写商业计划书、法律咨询和编写代码等活动，并且能够敢于质疑、承认错误、拒绝不合理请求，做到与人类流畅且几乎无差别的交流。20世纪50年代，英国数学家图灵提出“图灵测试”，即处于密闭小屋内的测试者通过打字分别与两个测试对象进行对话，其中一个测试对象是计算机，另一个则是活生生的人，测试者通过不断提出问题、接收测试对象的回答来判断小屋外是人还是计算机，如果计算机能够非常好的模仿人类的回答而让测试者产生了误判，则代表通过了“图灵测试”[1]，ChatGPT被认为是如今最接近“图灵测试”的AI模型。

从ChatGPT输入和输出的逻辑来看，ChatGPT是在生成式预训练变换模型（Generative Pre-Trained Transformer，GPT）的底层技术之上，经由不断迭代发展而来的。GPT-1、GPT-2、GPT-3以及ChatGPT都是采用Transformer为核心结构的模型，2018年Open AI公司推出的GPT-1，其参数量为1.17亿，预训练数据量约为5GB，而在2020年5月推出的GPT-3，参数量就已达到了惊人的1750亿，预训练数据量约45TB，海量数据通过Transformer的“自注意力机制”（Self Attention）被GPT深度学习，在无监督训练模式下，得到通用的“预训练”版本模型。ChatGPT在GPT-3的基础上，新加入RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习），通过人工对模型的多个回答进行标注排序，进而形成了无限接近人类自身的回答。

（二）ChatGPT的模型基础

1. 大规模语言模型

近年来，“大规模预训练+微调”已经成为深度学习多领域处理目标任务的新范式，预训练技术需要利用广泛的文本数据训练深层网络结构，并得到一个通用的大规模语言模型（Large Language Model，LLM）。语言模型是自然语言生成式AI的基础，它要求打造一个核心函数P，这个函数可以根据一个句子前面的所有单词来计算下一个单词出现的概率，把这些单词的概率相乘，如果数值越大，则代表越接近人类的语言。自“神经网络”概念被提出以来，AI研究人员一直试图在计算机中打造类人脑神经元的网络结构，语言模型的提出让人们开始探索“神经网络语言模型”（Neural Network Language Model，NNLM）的可能性。

2017年底，Google研究人员发表了里程碑式的论文：《Attention Is All You Need》，提出在机器翻译上大量采用“自注意力机制”进行深度学习，“自注意机制”叠加所构成的深度网络也就是目前GPT和Bard等自然语言生成式AI的核心模型——Transformer。“自注意力机制”改变了过去人们在NNLM领域关注输入要素与输出要素之间关系的研究方向，将重点放在输入要素或者输出要素之间的内在联系机制上，以此为基础的AI模型更能从逻辑上理解人类单词之间的语义关系。同时，正是因为Transformer模型能够计算出输入元素之间的关联，它可以实现不需要标注样本的自我监督式学习，大大节省了预训练进行人工标注的金钱和时间成本。这也就是GPT能够在短短几年时间内完成迭代，并将1750亿参数作为其训练数据源的原因。

2. 人类反馈强化学习

GPT模型通过Transformer机制可以理解句子中各个单词之间的逻辑关系，但是纯粹基于Transformer机制来进行学习未必能使AI了解人类Prompt真实的意图，而且给出的答案也未必符合人类社会的公序良俗和语言习惯，Google-BERT和GPT-2就曾经出现过生成有害答案的趋势，因此ChatGPT在GPT-3的基础之上加入了新的训练方法——人类反馈强化学习（RLHF）。

RLHF训练是通过人工标注好的数据对GPT-3.5模型进行微調（fine-tuned），对模型生成的答案进行打分排序，高质量的答案进行奖励（reward）、反馈错误的答案进行惩罚，使ChatGPT可以模仿人类偏好，经过反复迭代生成更高质量的回答。因此，ChatGPT相较于其他问答式AI有着更强的道德约束性，当被询问到一些敏感或者超越道德边界的问题时，ChatGPT基本都能察觉并且回避。但是，虽然ChatGPT通过RLHF进行强化学习，仍然存在生成错误或者偏见性答案的情况，并且ChatGPT在前期大规模预训练中抓取来自不同国家、不同平台的海量信息，对全球数据安全带来不小的冲击。

二、敏感个人信息的概述和保护现状

（一）敏感个人信息概述

1. 敏感个人信息的界定

在《个人信息保护法》出台之前，我国并没有对敏感个人信息的保护作特别规定，也没有在个人信息中区分一般个人信息和敏感个人信息。《民法典》第1034条原则性地规定了“自然人的个人信息受法律保护”，虽然没有直接采用敏感个人信息的概念，但在第2款列举的受法律保护的个人信息中，可以看到身份证件号码、生物识别信息、健康信息、行踪信息等实质上属于敏感个人信息;第3款对“私密信息”作出了规定，私密信息与敏感个人信息存在交叉，所以实质上也增强了对敏感个人信息的保护。《征信业管理条例》第14条规定征信机构不得采集个人宗教信仰、血型、基因等个人信息，并且在第2款规定不得采集个人收入、存款、有价证券等信息，除非信息主体同意;《最高人民法院关于审理使用人脸识别技术处理个人信息相关民事案件适用法律若干问题的规定》从司法实践的角度对人脸信息进行保护。由此可见，尽管《个人信息保护法》首次提出“敏感个人信息”的概念并作出了具体、全面的规定，但是之前已经有了立法和实践的经验，而且对敏感个人信息的保护一直秉持“告知+同意”的处理原则。

《个人信息保护法》第28条通过“概括+列举”的方式对敏感个人信息下定义，敏感个人信息是指一旦泄露或者被非法使用，容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息，包括生物识别、宗教信仰、医疗健康等信息。该概念虽然是从敏感个人信息受到侵害时的认定标准出发对敏感个人信息作出的界定，但也明确了敏感个人信息是与自然人的人格尊严或者人身财产安全具有密切联系的个人信息[2]，与一般个人信息进行区分。

2. 敏感个人信息的保护路径

（1）限定处理敏感个人信息的要件

因为敏感个人信息的特殊性，其处理一方面给信息主体带来巨大风险，另一方面又具有极高的利用价值和公共价值，因此几乎没有国家完全禁止个人信息处理者处理敏感个人信息，只是在立法价值上有所取舍。例如欧盟的《通用数据保护条例》（GDPR）和韩国的《个人信息保护法》都采用的是“一般禁止+例外”的模式;但是我国没有采取这种模式，而是规定一般个人信息和敏感个人信息都可以处理，但是对敏感个人信息的处理作出特别规定，即必须满足三要件——特定的目的、充分的必要性、采取严格保护措施。

《个人信息保护法》第6条规定：处理个人信息应当具有明确、合理的目的。这是处理个人信息的一般原则性规定，但是处理敏感信息在此基础上还要求具有“特定目的”。特定目的意味着，个人信息处理者的职业或者活动决定了其能否为某一目的而处理该敏感个人信息[3]，例如医务人员只有在治疗患者疾病时才能处理患者的医疗健康信息。

充分的必要性要求信息处理者处理敏感个人信息是实现其特定目的不可或缺的、必不可少的。例如金融理财服务提供者只有掌握了金融账户信息才能开展理财活动。相反，如果可以在不收集敏感个人信息的情况下也能实现特定目的，则不满足此项要求。

敏感个人信息的不当处理极易造成信息主体的人格权益和人身、财产权益受到侵害，因此在满足特定目的、充分必要性的基础之上，还需要对敏感个人信息进行严格保护。所谓严格保护措施主要规定在《个人信息保护法》第五章中，个人信息处理者应当对一般个人信息和敏感个人信息进行分类，并采取加密、去标识化等安全技术措施，在处理敏感个人信息时，应当事前进行评估和记录处理情况。

（2）敏感个人信息处理中的“特别告知+单独同意”规则

处理个人信息一般应遵循“告知+同意”规定，但是处理敏感个人信息时，《个人信息保护法》为个人信息处理者强加了“特别告知”义务和取得信息主体“单独同意”的规定。

《个人信息保护法》第17条规定了个人信息处理者告知义务的“一般规定”，第30条规定处理敏感个人信息时还需要另行告知处理的必要性和对个人权益的影响。一是处理的必要性，并不能由信息处理者自行决定处理是否必要，而是应当要求处理者将信息处理的必要性告知个人，由个人判断信息处理是否必要;二是对个人权益的理解，个人权益是指个人享有的所有法律上赋予的权利，信息处理者在处理个人敏感信息时对个人权益带来的或大或小的损害都应及时告知，保障个人的知情权。

“单独同意”意味着敏感信息的处理同意不能归入一揽子授权之中，而是应该将敏感个人信息区分开来，单独告知并取得同意，这才是所谓的“单独同意”。如果信息处理者将敏感个人信息同意与其他授权进行捆绑，则该同意无效。

尽管法条对“告知+同意”有了明确规定，但是信息不对称以及市场中消费者与商家地位的不平等，实践中的“单独同意”多数情况下流于形式，个人很难理解敏感个人信息带来的风险并做出选择，“同意”的作用正在虚化和异化。目前必须针对大数据中越来越普遍的数据采集和信息爬取，完善“告知+同意”规则。

（二）比较法视角下敏感个人信息的保护

敏感个人信息的概念出现较早，20世纪70年代德国黑森州《个人资料保护法》和瑞典《资料法》中就曾出现过敏感资料的概念。但目前普遍认为敏感个人信息的概念滥觞于1980年经济合作与发展组织（OECD）起草的《隐私保护与个人数据跨境流动准则》（Guidelines on the Protection of Privacy and Transborder Flows of Personal Data，以下简称OECD《指南》）。OECD《指南》对敏感个人信息问题进行了探讨，但是最终并没有进行特别规定，因为OECD专家组认为数据的敏感性来源于其所处的环境，因此对何谓敏感数据无法达成共识。

目前世界主要国家都对敏感个人信息作出特别保护，欧盟GDPR使用“特殊类型数据”这一概念;日本《日本个人信息保护法》将其称为“需注意的个人信息”;美国联邦层面至今尚未出台有关个人信息的专门立法[4]，只在零散的州法规以及各个行业的软法中出现。这可能是因为敏感个人数据并不是一个达成普遍共识的法律术语，而且因为新类型敏感数据的层出不穷，其归入与择出标准也存在争议[5]。

欧盟GDPR对个人信息进行了分层处理，一是对一般个人信息的规定，包括种族、政治观点、宗教信仰等，这些数据可以处理，但是不得泄露;二是個人敏感数据，包括个人基因信息、生物特征信息这种可以识别到特定主体的信息，原则上禁止以识别为目的的处理;三是关于健康数据、性生活、性取向信息原则上禁止处理[6]。美国加利福尼亚州于2020年11月通过《加州隐私法案》（California Privacy Rights Act of 2020，CPRA），将敏感个人信息作为新的个人信息类别并单独监管，还规定了企业如果计划收集或使用任何敏感个人信息，必须对个人进行特别通知，并且个人可以要求企业停止出售、共享和使用这些信息。并且在金融领域、通信领域、教育领域都出台了特定敏感信息法案。

由以上欧美立法经验可知，相对于一般信息，主要国家和地区的立法中均对敏感个人信息实行强化保护，这种强化保护是指信息处理者在处理有关敏感个人信息问题时，不仅要遵循法律关于一般个人信息使用的规定，而且还要提高注意义务，遵守针对敏感个人信息保护的特别规定，在适用顺序上，首先选择适用敏感个人信息的保护规则。具体规范上，采用“一般禁止+例外”的立法模式，一方面，明确了禁止收集和处理的原则;另一方面，规定了严格限定的例外情形。

三、现实冲击，ChatGPT与敏感个人信息保护之间的矛盾

（一）网络爬虫造成的数据爬取合法合规性风险

ChatGPT训练大型语言模型所使用的数据主要依靠网络爬虫技术在互联网爬取大量信息。根据OpenAI公司公开的文档显示，ChatGPT的原始训练集有至少60%的数据来自互联网抓取，其来源包括博客平台、维基百科、独立网站等，这些数据都是由网络爬虫进行技术支撑。网络爬虫本质上是一段计算机程序或脚本，它按照一定的逻辑和算法规则自动爬取万维网信息，并可以自动采集所有其能够访问到的页面数据，还可以对采集到的数据进行后续的挖掘分析[7]。目前，爬虫技术被广泛地应用于互联网搜索引擎或其他网站，比如百度搜索引擎的爬虫叫百度蜘蛛、360的爬虫叫360Spider、搜狗的爬虫叫Sougouspider。

但是，网络爬虫有其固有的缺点，特别是针对ChatGPT这种数据需求量巨大的AI模型，数据的采集难免会涉及个人信息，甚至可能是敏感个人信息，这些信息作为ChatGPT训练集的一部分，被反复迭代学习，构成对敏感个人信息的侵权;而且这种大规模的采集数据也一般不可能满足敏感个人信息“特别告知+单独同意”的规定。尽管从OpenAI公开策略来看，其收集信息还是会遵循Robots协议（Robots Exclusion Protocol，爬虫排除标准），但是Robots协议目前只是一种道德规范和行业标准，并不具有法律效力，且OpenAI目前公布的隐私政策并没有涉及它在数据采集阶段如何保护个人敏感信息，因此ChatGPT收集的训练数据是否合法有待商榷。

（二）算法黑箱与数据处理透明化之间的矛盾

从一开始，人们制定数据保护法的目的就是构建和限制对个人数据的处理，并使其对数据主体透明。1977年《德国联邦数据保护法》第3节已经规定了除非有法定依据或者征得了个人的同意，原则上禁止处理个人信息。此后这一数据处理方式得以沿用，并体现在《通用数据保护条例》（GDPR）中。我国《个人数据保护法》在一定程度上借鉴了GDPR，并且在敏感个人信息的处理上有更为严格的规定：个人信息处理者不仅要有明确、特定的目的和处理敏感个人信息的充分必要性，还要告知个人处理敏感个人信息的相关事宜并取得个人的单独同意。总之，现行的数据保护法的传统目标是使数据处理合理化，即只允许在法定基础上、为特定目的、以透明的方式处理个人数据。用汉堡大学马里昂·阿尔伯斯（Marion Albers）教授的话说：“整个方式的指导思想是，行动方针的决策过程几乎完全可以通过法律手段加以预见、规划和指导。”[8]显然，人工智能的发展与这一目标相违背。

当前常规的基于机器学习的人工智能通常要求输入大量用于训练和测试的数据进行深度学习，最后输出结果。这种算法运作虽然是由人类编写，但是机器深度学习的过程却是人类无法通过外部观察获知的，这也就是所谓的“算法黑箱”理论。算法应用于生活的方方面面，算法黑箱作为难以消弭的弊端亦是接踵而来，算法的不透明性和不可解释性引发开发者和消费者之间的信息不对称，并带来算法歧视和偏见[9]。人工智能的开发离不开算法，因此算法黑箱带来的影响不可避免的波及人工智能领域，其中一个重要体现就是当前人工智能与现行数据保护法的基本理念发生了冲突，特别是ChatGPT采用“自注意力机制”进行深度学习，也就是无监督学习的情况下，即使是程序员，也无法理解人工智能获得其结果的过程。敏感个人信息处理所需要的透明度与算法黑箱截然相反，《个人信息保护法》关于敏感个人信息的保护面临着人工智能的部分失控和完全不可控的挑战。

（三）数据开放与敏感个人信息受保护之间的矛盾

近年来，随着数字经济的繁荣，对数据的获取、共享和使用已经成为增强经济发展和社会福祉的核心驱动力，数据的大规模流动与传输，已经成为经济全球化背景下每个经济部门不可或缺的组成部分。在云端储存大量的个人信息，甚至是敏感信息或关键信息，是以信息网络为主要载体的数字经济时代发展的必然趋势。ChatGPT与敏感个人信息保护之间的冲突，集中体现在数据处理方式的冲突，而究其本质，是一种在数字经济时代，数据越来越频繁地被采集、流通、共享与敏感个人信息需要受到特殊保护之间的矛盾。

人工智能的发展要求数据传输的快速性、信息获取的便捷性和调取的便利性。这一点也体现在ChatGPT对数据的采集和应用中。而敏感个人数据保护则代表了一种信息领域的保守性。在信息技术和市场的双重作用下，人们不可避免地被卷入数字的洪流，但是不能由此倒因为果的推断出人们愿意为了数据的开放牺牲自身的敏感信息[10]，正相反的是，数字经济越发展，个人信息保护的问题就越受到人们的关注与强调。实现信息开放与信息保护之间的平衡，不仅需要ChatGPT提高信息处理的透明度，也有赖于相关立法政策的出台以及政府的监管。

四、路径探索，ChatGPT时代敏感个人信息的保护

（一）规范ChatGPT网络爬虫信息采集方式

ChatGPT运用网络爬虫采集原始训练库中的数据，目前饱受合法性的争议。笔者认为，规范网络爬虫信息采集行为，一方面需要OpenAI公司规范ChatGPT的网络爬虫技术;另一方面需要数据被爬取方，即数据权利方积极采用“反爬”策略。

网络爬虫作为一种利用逻辑和算法自动爬取互联网信息的计算机程序，想要保持其技术上的中立性，需要法律对其进行合法性限定[11]。首先，网络爬虫应保证只针对开放数据爬取，这不仅要求爬取对象上，网络爬虫不能采集具有非公开特性的敏感个人信息，也体现在技术手段上不能具有明显的侵入性;其次，使用网络爬虫应当基于明确、合理的目的，ChatGPT官方可以公开其信息采集的目的、方式、手段、采集到的信息如何利用、保护等，在证明其网络爬虫技术符合法律规定的同时，缓解公众对于信息安全问题的担忧。

当然，避免敏感个人信息被不当爬取不仅需要数据爬取方规范网络爬虫的应用，也需要数据被爬取方积极运用“反爬”策略。其一，因为OpenAI公司表示其会遵从Robots协议，因此可能会被ChatGPT网络爬虫爬取的网站、特别是内含敏感个人信息的网站，可以充分利用Robots协议，引导或限制网络爬虫的爬取行为。其二，利用User-Agent限制网络爬虫，User-Agent指的是用户在访问网站时所使用的客户端种类和版本[12]，相当于客户端向网站站点表明身份的一种标识，知名的爬虫都有其固定的User-Agent，可以通过设置User-Agent黑名单来限制网络爬虫的访问。

（二）打开黑箱，提高ChatGPT数据处理透明度

过去几年，人工智能的不透明性已经成为一个显要的政治和社会议题。随着人工智能对社会的影响逐步加深，公众越发认为那些监管、使用或受人工智能影响的人们应该对这项技术有足够的了解。打开黑箱对于识别侵犯用户敏感个人信息、发现偏见和防止其他潜在危害是必不可少的。目前各国纷纷出台政策和立法文件，确立人工智能透明度的目标。然而，我们也应该认识到的是，“完全”透明是不可能的、也不可取的。提高人工智能透明度的价值在于产生知识和引发有关技术的辩论，激发个人对基于人工智能的决策提出疑问，并从长远来看将加强社会对新技术的接受[11]。

从这个角度出发，我们应该对透明度有一个更广度的认知。科里亚斯（Cary Coglianese）认为算法透明包含两种：“鱼缸型透明”（fishbowl transparency）和“原因型透明”（reasoned transparency），前者是指公开数据的源代码、数据训练集等;后者指公开算法工作的原理，强调公开信息的实用性，在实践中，公开算法原理更具有可行性，它既可以提高公众对于人工智能的了解，又能保护公司的知识产权。其二，将算法披露与解释权结合起来，这种解释是一种嵌入制度环境中的社会实践，即公民可以了解到人工智能决策的依据、产生的影响、以及明确可以启动司法程序捍卫自己的权利。

打开黑箱对于识别侵犯用户敏感个人信息的行为是必不可少的，ChatGPT引发的对侵犯敏感个人信息的质疑和恐慌一定程度上来源于社会普遍对于人工智能兴起的无知和被剥夺公民权的感受。因此，一方面，为了消除这些不利影响，ChatGPT官方应当定期公布其保护敏感信息的隐私政策，包括信息保护算法原理、实践情况以及用户反馈，并根据现实情况不断进行调整;另一方面，ChatGPT官方以及各国行政或司法机关也应及时告知公民可以依据ChatGPT侵犯公民敏感个人信息的行为提起司法诉讼，保障公民的敏感个人信息保护权得到救济。

（三）建立全链条监管和问责机制

ChatGPT的冲击暴露了现实中敏感个人信息保护的不足，一方面体现在对人工智能监管的缺失，无法从事前和事中避免人工智能给敏感个人信息带来的不利影响;另一方面则体现在法条理论与实践的脱节，法条内容流于形式，无法很好地指导实践。

首先，从国家层面，需要建立事前、事中和事后的全链条监管。具体而言：第一，确立对人工智能事前监管模式。欧盟最早将人工智能的监管由理论迈向实践，2021年4月，欧盟委员会颁布全球首部《人工智能法案》，确立以技术风险分级为核心的监管模式[13]，对于高风险的人工智能，欧盟要求供应商在投入市场前提交评估报告，如果提交的目的或性质有根本改变则需要重新评估[14];目前我国没有针对人工智能的专门立法，关于数据算法或者人工智能的主要规定分散在《网络安全法》《数据安全法》《个人信息保护法》以及一些零散的政策文件中，因此可以借鉴欧盟的立法路径，建立专门的人工智能法案，規定涉及敏感信息安全问题的人工智能投入市场前进行评估备案。第二，对人工智能进行事中、事后监管，可以参考《个人信息保护法》中第六章的规定，国家网信部门负责敏感个人信息保护监管工作，完善敏感个人信息保护投诉、举报机制，对风险较大的个人信息处理者进行约谈①。目前，ChatGPT并没有进入中国市场，但是诸如阿里巴巴、百度等国内互联网公司已开始着手研发类ChatGPT系统。建立全生命周期监管机制，不仅可以预防有朝一日ChatGPT进入中国后带来的问题，也可以避免投入市场的类ChatGPT系统脱离法治轨道。

其次，建立问责评估体系，使法条规定能够落实到实践，例如“特别告知+单独同意”规则的完善。告知义务是信息主体知情权的基础，告知义务后续的责任应贯穿于信息收集和使用的全部环节[15]。目前被合法获取的敏感个人信息可能被ChatGPT采集并“二次使用”，但却并没有取得信息主体的同意，这也是目前该规则饱受争议的重要原因。对此，应加强对初步信息处理者的问责制度，防止其在履行完特别告知义务后进入“免责”状态，或者在发生敏感个人信息泄露事件时将责任转嫁第三方;同时，也可以加入独立的第三方机构进行评估，确保敏感个人信息处理者在合乎规范的阈值内运行。

五、结语

人工智能的前进与发展已然势不可挡，在ChatGPT发布短短几个月后，2023年3月15日凌晨，GPT-4横空出世，它拥有比ChatGPT更强大的图片识别能力和推理能力，使科技的发展迈向了不可预测的新阶段。我们必须认识到，内容生成式AI的发展不可能被按下暂停键或倒退键，但它们带来的敏感个人信息安全问题却不可能在短时间内消弭，而这些冲突的背后是大数据时代不可避免的数据流通与信息保护之间的矛盾，因此需要不断平衡技术创新与传统信息保护领域之间的关系。这一方面要求规范网络爬虫信息采集行为、提高人工智能透明度以满足法律和社会伦理的需要;另一方面也要建立全生命周期的监管和问责制度，警惕人工智能的失控。使未来人工智能的发展不是潘多拉的魔盒，而是通往未来世界的一把钥匙。

注释：

① 参见《个人信息保护法》第60条、62条、64条。

参考文献：

[1] 冯志伟，张灯柯，饶高琦.从图灵测试到ChatGPT——人机对话的里程碑及启示[J].语言战略研究，2023，8（2）：20-24.

[2] 王利明.敏感个人信息保护的基本问题——以《民法典》和《个人信息保护法》的解释为背景[J].当代法学，2022，36（1）：3-14.

[3] 程啸.个人信息保护法理解与适用[M].北京：中国法制出版社，2021：267.

[4] 杨合庆.中华人民共和国个人信息保护法释义[M].北京：法律出版社，2022：85.

[5] 王苑.敏感个人信息的概念界定与要素判断——以《个人信息保护法》第28条为中心[J].环球法律评论，2022，44（2）：85-99.

[6] 中國信息通讯研究院互联网法律研究中心.个人信息保护立法研究[M].北京：中国法制出版社，2021：222.

[7] 贾宁.大数据爬取、清洗与可视化教程[M].北京：中国工信出版集团，2021.

[8] [德]托马斯·威施迈耶，蒂莫·拉德马赫，编，韩至旭，李辉，等，译.人工智能与法律的对话[M].上海：上海人民出版社，2020：39.

[9] 吴椒军，郭婉儿.人工智能时代算法黑箱的法治化治理[J].科技与法律（中英文），2021，1（1）：19-28.