生成式人工智能的治理策略研究
2023-09-12宋恺屈蕾蕾杨萌科
宋恺 屈蕾蕾 杨萌科
(1. 移动应用创新与治理技术工业和信息化部重点实验室,北京 100191;2. 中国信息通信研究院泰尔终端实验室,北京 100191)
0 引言
2022年11月30日,美国人工智能研究公司OpenAI发布了聊天生成预训练转换器(Chat Generative Pre-trained Transformer, ChatGPT)。作为生成式人工智能的最新代表性成果,ChatGPT拥有强大的语言理解和内容生成能力,能够根据聊天的上下文与人类进行互动。自发布之日起,ChatGPT迅速火爆全球,短短5天便收获了超过100万用户,且月活用户突破1亿只用了两个月,成为史上增长最快的消费级应用,被誉为生成式人工智能发展的里程碑[1]。然而,生成式人工智能火速“出圈”的同时也暴露出个人信息泄露、信息造假门槛降低、仿制服务涌现等风险隐患,亟需加强对生成式人工智能个人信息保护合规治理的策略研究。
1 概述
生成式人工智能主要指利用海量数据集和深度学习、强化学习等生成、合成类算法制作文本、图像、音频、视频等内容的技术。相比于传统人工智能技术,生成式人工智能更加擅长创造新内容,而不是简单地进行推理和预测。目前,得益于大模型、大数据和高算力的底层支撑,生成式人工智能实现跨越式发展,推动相关技术产业发生重大变革,主要呈现以下三方面特点。
一是复杂架构助推技术突变。大模型、大数据和高算力是实现生成式人工智能跨越式发展的“三驾马车”。从训练模型来看,参数量已超越千亿级别,模型体量不断增长,架构复杂程度难以想象。从训练数据来看,ChatGPT的前身GPT-3使用3 000亿个单词、超过40 TB的高质量数据进行训练[2]。从训练算力来看,生成式人工智能算力需求增长惊人。例如,GPT-3的算力消耗已达前代模型GPT-2的15倍[2]。
二是能力突出,善于内容生成。得益于不断提升的数据质量、数据规模、算法设计和计算能力,生成式人工智能以十分接近人类的思考方式进行信息处理和内容生成,完成更加多元化的主题任务,在文本生成、数据分析、代码编写、图像生成等领域均表现出极为突出的可靠性、高效性与逻辑性。
三是应用广泛,驱动产业变革。目前,生成式人工智能的广泛应用拓展了利用计算机进行创新的领域。例如,微软公司将ChatGPT集成到Word等工具软件中,使办公方式发生了重大变革,生产力得到了极大提升[1]。百度、谷歌等企业也纷纷调整战略,宣布推出相应的产品服务和人工智能项目[3],掀起了新一轮科技革命,重构了人工智能产业格局。
2 相关问题分析
生成式人工智能的发展与应用带动了技术产业变革,但同时也因固有技术缺陷和社会认知不足引发了一系列亟待解决的问题。目前,生成式人工智能的滥用滋生了个人信息泄露、虚假信息泛滥、仿制服务涌现等个人信息保护风险隐患,个人信息与用户权益保护面临巨大挑战。
2.1 个人信息泄露
在海量数据的支持下,生成式人工智能可以给用户带来良好的人机对话交互体验,但隐私威胁也潜藏其中。模型的训练数据大多来自互联网,其中可能包含未经授权的个人信息,如用户在论坛中的发言与相关账户信息,且用户与模型进行交互的过程中向其分享的个人信息可能被用于模型迭代更新[4]。在第三方刻意引导下,模型的输出内容可能包含用户个人信息或重要数据。例如,如果向ChatGPT的前身GPT-2模型输入“北京市朝阳区”,模型会自动输出特定人员的姓名、电话号码、电子邮件地址和住址等个人信息,证明此类信息存在于模型的训练集中[5]。此外,ChatGPT曾被爆出存在隐私漏洞,部分用户可以看到其他用户的对话记录,特定条件下甚至能看到姓名、电子邮件地址、信用卡号后四位等[6]。针对此类问题,近期OpenAI公司宣布推出新控件,允许ChatGPT用户禁用聊天记录,且承诺在被禁用的情况下聊天记录将不会被用于模型训练,也不会出现在边栏的历史记录中[7],但却没有公布具体实现方式,故仍不能排除潜在的信息泄露风险。
2.2 虚假信息泛滥
自ChatGPT发布以来,围绕着生成式人工智能助长虚假信息泛滥的争议日益增多。例如,据大量用户反馈,ChatGPT会在某些情况下产生“事实性错误”,对一些常识问题“胡说八道”。倘若此类问题发生在金融、医疗等关键领域,很可能会造成严重的人身财产损失。在学术界,这类问题常被称为“AI幻觉”,主要有两方面的原因:一方面,绝大多数生成式人工智能模型的建立需要以海量互联网数据为基础,其中自然包含大量由用户自行创造输入的信息,其内容真实性难以得到有效保证,使据此建立的模型有效性受到显著影响;另一方面,从本质上来说,现有生成式人工智能模型广泛使用的“下一单词预测”技术仅仅是为了满足语法和语义的要求,并不能够真正理解语言的内在含义,更不能据此推断“现实世界的经验”,自然难以确保输出内容符合客观事实[1]。
此外,随着技术逐渐发展成熟,生成式人工智能强大的内容生成能力使制作虚假信息的门槛逐步降低,可能在侵害用户个人信息权益的同时造成财产乃至人身权益损失[8-9]。例如,广西玉林警方曾捣毁一个通过破解人脸识别技术侵犯公民个人信息的犯罪团伙,该团伙利用生成式人工智能将非法获取的公民照片转化为动态人脸视频,据此成功通过游戏中的人脸识别认证,并通过非法出售捆绑公民个人信息的游戏账号从中牟利[10]。2023年2月中旬,一则杭州市政府3月1号取消机动车尾号限行的“新闻稿”在网上广泛传播,引起轩然大波。然而,后经警方证实,该消息实为某居民为测试ChatGPT功能而自动生成的[11]。
2.3 仿制服务涌现
新技术的推出和流行往往会激发大众的好奇心,而这恰恰为违法犯罪行为创造了条件[12]。近期,部分微信公众号、小程序声称能够提供ChatGPT、文心一言等生成式人工智能服务,实际却是为了诱骗用户充值、提供个人敏感信息,有些甚至接入其他服务商的对话模型。此外,部分应用商店存在不少打着ChatGPT旗号的“山寨”应用程序,有些甚至包含可以窃取用户通话记录、联系人列表、短信和文件的恶意代码。
2.4 治理挑战加剧
生成式人工智能模型复杂、可解释性差,外部难以进行评估和纠偏,治理层面挑战逐渐加剧。一方面,模型的表现取决于数据、算法、训练方法等多重因素,而模型的复杂性使常规的软件测试方法难以遍历所有可能的情况,为存在问题的模型提供了可乘之机;另一方面,高度复杂的模型对用户、监管机构、开发设计者而言都是典型的“黑箱”结构,无法确切理解其内在运行机制和数据处理机制,合规评估和安全管理面临较大挑战[1,13]。
此外,作为代表性生成式人工智能产品,ChatGPT、Midjourney、Stable Diffusion等自身具备收集、存储和使用数据的功能,但均由国外企业开发运营,国内用户在使用过程中必然面临数据出境和数据入境的风险,尤其是当交互过程中涉及到个人信息等敏感信息甚至有关国家安全、经济运行、社会稳定等重要数据时,这给数据主权、国家安全、个人信息保护等带来了严峻挑战。
3 国内外人工智能治理进展
3.1 美国人工智能治理进展
为了鼓励科技创新,美国在人工智能立法方面较为谨慎,目前联邦层面尚未形成统一立法,亦未启动对生成式人工智能的正式监管,更多依靠地方自治、行业规则和个人诉讼等方式解决生成式人工智能带来的问题。
在联邦层面,2022年10月,美国颁布《人工智能权利法案蓝图:让自动化系统为美国人民服务》,确定了建立安全有效的系统、避免算法歧视、注重数据隐私、提倡清晰的通知和解释、设置备选方案和推出机制一共五项原则[14],用以指导人工智能的设计、使用和部署。在州层面,由于ChatGPT近期引发广泛关注与争议,部分州的立法进程受到影响。例如,因公众意见过多,旨在规避算法歧视与偏见的《纽约自动化就业决策工具法》曾被多次推迟[15]。
在此基础上,2023年4月,考虑到近期生成式人工智能的快速发展,美国国家电信和信息管理局发布《人工智能问责政策征求意见》,就是否以及如何对生成式人工智能等工具进行监管和问责征求相关利益主体的意见和建议[16]。
3.2 欧洲人工智能治理进展
对于人工智能潜藏的相关风险,欧盟对个人数据的保护走在前列。欧盟即将出台的《人工智能法案》采取了一种基于风险程度对人工智能产品进行分类管理的监管思路,从微观角度将人工智能应用分为四个风险等级,即不可接受的风险、高风险、有限风险和最低风险[17]。人工智能应用如果属于“不可接受的风险”类别,则将被完全禁止;如果属于“高风险”类别,则需要受到严格的事前评估、活动可追溯性、市场监督、信息共享等多方面的法律约束;如果属于“有限风险”类别,则其基本只涉及公开披露方面的监管要求;如果属于“最低风险”类别,则通常因风险较低暂时不受监管约束[17-18]。
类似ChatGPT这样的生成式人工智能对当前的风险分类方法与监管实践而言仍然是一个严峻的挑战。2023年3月,意大利个人数据保护局宣布,从即日起禁止其国内用户使用ChatGPT,并限制其所属公司OpenAI处理意大利用户信息,成为全球首个发布严格禁令的监管机构。然而,不到一个月,意大利政府态度便有所缓和,列出OpenAI在2023年4月底之前必须采取的步骤,并宣布若完成则可解除禁令。
意大利政府的行为同时引起了欧洲多国及地区监管机构对ChatGPT等生成式人工智能的关注。2023年3月,英国政府发布《支持创新的人工智能监管方式》,概述人工智能监管治理的五项原则(安全性和稳健性、透明度和可解释性、公平性、问责制和管理、可竞争性和补救性)[19]。2023年4月13日,西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。此外,欧洲数据保护委员会近期宣布成立专门工作组,旨在促进各国协同调查,并就可能采取的执法措施进行交流。
3.3 我国人工智能治理进展
早期阶段,为鼓励技术创新,我国在人工智能领域的立法以促进人工智能领域产业发展为主。近年来,随着人工智能相关风险日渐凸显,相关部门开始关注算法的安全监管,并于近期围绕生成式人工智能出台了多条规章制度、团体标准和技术指引。
2022年,为治理包括生成式人工智能在内的多种算法应用中出现的传播违法内容、侵害用户权益和操纵社会舆论等问题,中华人民共和国国家互联网信息办公室、中华人民共和国工业和信息化部、中华人民共和国公安部以及国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》,要求算法推荐服务提供者履行保护用户权益、算法备案等义务并特别强调未成年人保护,致力于引导“算法向善”。
2023年4月11日,为促进生成式人工智能的健康发展和规范应用,中华人民共和国国家互联网信息办公室发布《生成式人工智能服务管理办法(征求意见稿)》(简称《办法》),对生成式人工智能服务进行了规范,成为《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等文件的重要补充。《办法》对研发和应用生成式人工智能提出一系列要求,涵盖促进技术创新与产业发展、避免算法偏见、防止虚假信息生成、保护个人信息等多方面内容,力求在创新发展和精准治理中找到良好平衡。
与此同时,为提升支付清算行业的数据安全管理水平,中国支付清算协会发布《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》,旨在提倡从业人员依法依规使用以ChatGPT为代表的新兴技术与产品。
4 人工智能治理策略建议
技术没有善恶,关键在于如何使用。为确保生成式人工智能安全、可靠、可控,推动相关产业经济更加健康、更可持续、更为长远地发展,监管部门应坚持“伦理先行”原则,进一步完善治理体系、强化治理手段,对相关主体行为进行规范。然而,面对新技术、新应用带来的机遇和挑战,我们不能因害怕风险而放弃创新。目前,我国生成式人工智能的发展与国际先进水平相比仍存在差距,为鼓励技术创新,应坚持包容审慎的原则,在发展中规范、在规范中发展,推动敏捷治理理念贯穿技术发展应用全周期,从合规体系、技术基础、应用服务等方面入手,促进生成式人工智能向善发展。
4.1 坚持敏捷治理理念
敏捷治理起源于软件工程领域的敏捷方法或敏捷开发,其核心思想是问题导向和以人为本[20]。在实践过程中,敏捷治理并不制定长期规划,而是在持续跟踪社会发展的过程中根据情况的变化及时对政策进行微调[20]。因此,在敏捷治理理念的指导下,监管部门应当密切跟踪生成式人工智能的发展与应用状况,加强个人信息保护风险预警,及时动态调整治理手段。在新技术发展初期,尊重技术发展规律,积极鼓励技术创新。在技术发展的过程中,及时发现和解决可能引发的风险,将潜在负面效应控制在可接受的范围内。针对当前存在的问题,应用分发平台和小程序平台应完善内部审核规则、严把上线入口,全面摸排付费“中介”“山寨”服务等行业乱象并开展专项整治行动。
4.2 加快数据合规建设
监管部门应充分运用管理制度、标准规范和技术措施,不断完善数据合规体系,统筹兼顾个人信息保护和数据合理利用。
在管理制度方面,应落实落细《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等相关规定,密切跟踪产业发展态势,加快出台生成式人工智能专门管理办法,明确生成式人工智能研发、内容传播与产业应用等各环节的个人信息保护要求。
在标准规范方面,应建立健全生成式人工智能行业领域安全标准规范体系,为行业健康持续发展保驾护航。行业安全标准有助于企业用户更好地了解生成式人工智能技术与产品的安全特性,在开发应用过程中强化个人信息保护,降低数据泄露和技术滥用的风险。具体而言,相关政府部门、标准化组织、行业协会等应从生成式人工智能治理的特性出发,组织制定专门针对生成式人工智能的个人信息保护技术标准,对生成式人工智能模型的开发、训练、测试、上线、应用、运行维护等环节提出规范要求,突出强调安全隐私审计评估、匿名化、隐私计算、加密、身份认证、访问控制、漏洞修复等关键层面的技术与管理要求。
在技术手段方面,应着力提高生成式人工智能个人信息保护风险监测能力,提高治理手段的自动化、智能化水平,聚焦个人信息处理、敏感权限获取、安全漏洞等维度,加快突破生成式人工智能数据安全风险评估核心技术。
4.3 夯实模型技术基础
为从根本上降低和避免生成式人工智能产生的个人信息保护风险,相关企业应在语料库构建、算法设计、数据存储与传输等方面采取一系列措施来保证模型和数据的安全性。
针对生成式人工智能模型虚假信息泛滥的问题,一方面,在语料库构建的过程中,应强化安全隐私防护,加强数据审核过滤,防止错误信息和未经授权的个人信息被纳入训练模型;另一方面,应通过扩大语料库的覆盖范围、改进算法设计机理等手段对生成式人工智能的内容理解能力和创造能力进行优化,避免产生误导及欺骗性内容。
针对数据存储和传输过程中的信息泄露问题,应采取合适的安全措施来保护个人信息数据的机密性和完整性。一方面,应采用密码技术对数据进行处理,实现传输不中断、信息不泄露、数据无篡改;另一方面,应大力推动匿名化、隐私计算等技术的研究应用,将“安全、可靠、可控”的治理要求落实到模型开发训练的全流程中。
4.4 强化服务保障体系
在推广应用生成式人工智能的过程中,应注重信息内容安全和用户权益保护。针对生成式人工智能治理的系统性、复杂性特点,应促进政府、企业、行业组织、科研机构、媒体、公民等利益主体的多方合作,共同解决复杂问题。首先,应当明确生成式人工智能产业链上下游各方的权责,充分发挥相关企业的主体作用,为生成式人工智能服务过程中的个人信息和用户权益保护提供切实保障;其次,为保障信息内容安全,应广泛深入研究人工智能生成内容检测技术,建立健全对不良生成内容的识别和阻断机制;最后,媒体应加强科普,提高大众个人信息保护意识和风险鉴别防范能力,引导全社会理性地认识生成式人工智能。
5 结束语
生成式人工智能发展的空间越大、影响越深,对它的治理就越重要、越紧迫。目前,生成式人工智能产业发展仍处于早期阶段,全社会缺乏对其能力和风险的全面认识。为促进技术向善发展,应坚持敏捷治理理念,加快数据合规建设,夯实模型技术基础,强化服务保障体系,推动构建系统化长效治理体系,实现创新发展和精准治理统筹兼顾。