GPT4发展中的若干问题及其规制方案

2023-03-04严驰

信息安全研究 2023年6期

严驰

(武汉理工大学法学与人文社会学院武汉 430070)

自1956年约翰·麦卡锡首次提出人工智能(AI)概念以来,AI技术已经取得了令人瞩目的发展.近年来以ChatGPT为代表的大模型项目在AI领域炙手可热,GPT4作为ChatGPT的升级版,在图像输入、文字处理、推理能力等方面有了全方位地提升,展现出颠覆性的技术能力.同时,GPT4的出现也引发了数据安全、知识产权、核心算法方面的若干问题,有必要对其进行全面检视与系统思考,确保科技创新工作平稳有序开展.

1 GPT4:颠覆性的技术创新

1.1 研究回顾

近年来,AI技术所引发的技术风险和社会风险日益凸显,引发了学术界和产业界的广泛关注.如吴汉东[1]认为AI技术已经全面介入人类生活并在全球范围内建立起独特的生态格局,应重视AI引发的负面影响,形成规范的社会治理体系;谭毓安[2]指出以深度学习为代表的AI技术在和人类社会生活的融合过程中面临着多种新型安全攻击,今后应探索更多具备可解释性的攻击防御方法;彭长根[3]从技术、标准和法律的维度提出了加强AI安全治理技术体系研究、构建AI技术标准与应用规范、健全AI领域法规及制度体系等治理对策.

如今围绕生成式AI大模型的研究已颇为丰富,主要是以GPT4的ChatGPT为分析对象,关于GPT4的特定研究较少.如郑世林等人[4]研究了新一代生成式AI技术对经济和社会的影响,指出ChatGPT虽然加速了传统社会体系的重塑,但与此同时也带来了科技与学术伦理、价值渗透、信息泄露等问题;丛立先等人[5]以ChatGPT为对象分析了聊天机器人数据挖掘、内容生成以及内容完成后的版权风险,提出了涵盖技术标准、司法保护、行政监管和平台治理的综合体系构建方案;邓建鹏等人[6]将目前ChatGPT模型引发的问题概括为生成内容知识产权归属争议、数据相关法律风险和挑战学校及学术伦理规范3个方面并提出了相应的规制对策,为生成式AI大模型的法律风险应对提供了参考.2023年3月,OpenAI公司正式发布新一代生成式AI大模型GPT4.2023年4月,OpenAI创始人山姆·阿尔特曼在接受采访时表示将专注于GPT4的技能提升,短期内并无开发GPT-5的计划.换言之,GPT-4将是未来较长一段时间内生成式AI大模型的领军者.在此背景下,有必要以GPT4为研究对象,更新对生成式AI大模型技术的认识,分析GPT4的潜在风险并提出相应的规制方案.

1.2 技术基础

如今AI正在经历从感知智能到认知智能的范式转变,一系列AI大模型的兴起不断刷新着大众对AI技术的认知边界.大模型的背后是自然语言处理(NLP)、机器学习(ML)、计算机视觉(CV)、图形学习(GL)等技术数十年的研究和发展.本文关注的GPT4是NLP领域最具代表性的生成式AI大模型之一.NLP领域的大型语言模型分为GPT和BERT 2种主流技术路线.OpenAI公司的初代模型GPT1诞生于2018年6月.GPT1发布之初并未引起足够的重视,直至2022年11月ChatGPT推出后才引发社会广泛关注.GPT的特点是“自回归”,通过“预训练+提示”的方式,在语言生成上更具优势.2018年10月,谷歌开发的BERT模型问世.BERT的特点是“双向”,通过“预训练+微调”的方式,激发了大量关于BERT模型的改进与应用研究.GPT和BERT的共性是均采用了大规模的预训练.预训练技术最早出现于CV领域的迁移学习中,如今正被广泛应用于增强其他领域的模型性能.以BERT,ChatGPT为代表的生成式AI大模型凭借着高效的Transformer模型架构以及参数量、数据量的指数级增长,已经可以完成NLP领域的绝大部分任务,同时在CV,GL等领域也表现出巨大的发展潜力.

在基于GPT3.5调整而来的ChatGPT中,研究人员通过加入基于人类反馈的强化学习(RLHF)、提示优化、思想链等技术,大大提升了模型的语言理解和分析能力.GPT4拥有强大的神经网络预测功能,在ChatGPT的基础上实现了从单模态向多模态的转变,将生成式AI大模型的安全性、创造性、逻辑性等提升到一个新高度.人类从真实世界中接收到的信息往往呈现出多模态的来源,由单模态向多模态的转变有利于引入更多元的数据信息,增强模型的通用性和泛化能力[7].因此,GPT4展现出的信息收集处理能力比ChatGPT更胜一筹,进一步提高了人机交互的效率和体验.GPT4的颠覆性不仅体现在技术层面,还体现在对人类社会的影响.GPT4在SAT,GRE等考试中拥有超越绝大多数人的表现,其强大的文本和图像理解能力、突出的模型表达能力甚至有望取代部分基础性劳动岗位如电话接线员、数据库录入员等.

目前GPT4在文本生成、互动交流等方面成熟度较高,但技术上尚存在一些缺陷.如对文本形式外的输入输出处理能力不足、容易产生不准确或不相关的回答等.GPT4在感知和判断方面已经逐渐接近甚至超越了人类,但还无法向人类一样进行逻辑推理、决策分析,且GPT4更依赖于通过训练数据集进行模仿回答,不擅长信息来源验证和文本的真实性核查.虽然GPT4可以输出令人印象深刻的内容,但理解模型的生成逻辑仍然是一个挑战.尤其是在GPT4的输出内容未能达到预期目的时,可解释性的缺乏使得控制输出内容十分困难.目前,GPT4等生成式AI大模型的开发主要集中于预训练阶段,相应的技术也较为成熟.与从零开始训练模型不同,之后应进一步探索如何为下游任务进行模型的微调和优化,在原有的基础能力和对新任务的适应性能之间进行权衡.

2 风险探赜:GPT4发展中的重点问题分析

GPT4的前作ChatGPT自2022年底发布以来,短短2个月内注册用户就超过1亿,引发了世界范围内的广泛关注[8],如今世界科技巨头正在热火朝天地开展AI领域的军备竞赛.人们应清醒地认识到AI技术是一把“双刃剑”,在披荆斩棘的同时也存在自伤的风险.本文重点探讨了GPT4在数据安全、知识产权、算法规制等重点方面存在的风险和问题,希望在充分发挥GPT4强大功能的同时引导AI技术向更有利于促进社会进步的方向发展.

2.1 数据安全

数据是AI技术发展的基础,生成式AI大模型的构建和优化需要大量的数据支持,掌握更多数据的一方将在未来的AI竞争居于优势地位.尽管OpenAI公司未公布GPT4模型的参数量及预训练的数据来源,但从GPT4全方位的能力提升来看,GPT4的参数量不会少于GPT3的1750亿.GPT4的数据大多来源于可公开使用的互联网数据或第三方许可提供的数据,GPT4的训练数据库中掌握了全面且细致的个人数据,如社交互动数据、消费交易数据、身份信息类数据以及其他更为私密和具化的数据[9].其中部分数据来源于使用过程中用户主动提供的数据,如在社交软件账号申请时,一些用户会主动提供个人信息.还有部分数据来源于用户的被动“让渡”.大量社交软件在用户协议或隐私政策中强制性要求用户在使用软件时授权运营方进行个人信息的收集和处理[10],GPT4亦存在类似的要求.OpenAI官网隐私政策第10条规定,如果用户不提供使用服务所需的个人信息,则将无法使用相关功能.

2.1.1 设定数据存储期限

随着数据规模的扩大,对数据承载和保护能力的要求也在不断提高,数据泄露的风险逐渐显现,可能会侵犯到用户的隐私权和个人信息权益或企业的商业秘密等.近日,OpenAI创始人山姆·阿尔特曼在推特上承认,由于系统的漏洞,部分用户能够看到不属于自己的对话历史记录.OpenAI官网隐私政策第3条指出,在业务转让、法律要求等特定情况下会向包括关联公司、供应商和服务提供商等在内的第三方提供用户的个人信息.但是,上述情况明显不属于该个人信息披露范围,不由让人怀疑用户使用GPT4时个人信息的安全性.目前部分对数据安全重视程度较高的企业和国家已经开始限制GPT4的使用,如摩根大通禁止员工在工作场合使用GPT4,以保护公司机密和客户信息的安全.意大利则已经宣布禁止ChatGPT在意大利境内的使用,并将对OpenAI公司开始立案调查.目前针对GPT4背后海量数据的管理和保护成本颇高,可以通过设定信息存储期限构建更安全的数据环境.从技术的可行性角度来说,设定数据存储期限是较为容易实现的.现实中这种功能框架早已存在,如电脑经过设置会每隔一段时间自动清理过期或重复文件.从可欲性角度来说,设定数据存储期限可以显示GPT4对数据安全和隐私保护的重视,提升用户信任度.

2.1.2 探寻中国发展方案

从长远角度考虑,美国、欧盟、日本已经相继把数据安全提升到国家战略高度.在数据的资源属性越发凸显的时代背景下,数据安全将关系到国家经济和政治安全[11].GPT4的开发者OpenAI是一家位于美国的AI公司,且模型训练时的主要语言为英语,更容易偏向西方意识形态.此前美国等西方国家长期利用技术上的优势对我国进行科技霸凌,在推广本国技术产品的同时阻挠我国相关产业的发展[12].申言之,新一轮AI领域技术竞争中暗含着全球话语主导权和意识形态领导权的争夺,AI技术背后是国家在数据、算法、算力等“硬实力”的博弈,也是战略、思想、文化等“软实力”的对抗.目前国内的AI研究在理论层面已经有了高水平的产出,实际落地层面的产品如百度开发的“文心一言”等虽然在技术层面与GPT4相比还存在一定的距离,但在数据安全上严格遵循了国内相关法律法规,强化了对用户数据和隐私的保护,开创了具有中国特色的发展模式.数据安全是技术发展的前提,如何在保障数据安全的同时提升技术水平将是我国AI产业未来发展中亟待解决的议题.

2.2 知识产权

2.2.1 版权侵权诉讼频发

GPT4所体现出的创造力和创新性对传统知识产权法律制度形成了极大的挑战,特别是在版权方面.GPT4输出的文本属于人工智能生成内容(AIGC)的范畴,其生成过程中大量学习、模仿了人类先前创作的文字作品,其中很有可能涉及受版权保护的作品.实践中相关案例已有发生,在2023年1月的Andersen v. Stability案中,3位艺术家提起了对知名AI绘画工具开发公司Stable AI,Midjourney和DevianArt平台的版权侵权集体诉讼.尽管GPT4的复述形式并非原封不动地照搬照抄,但也是对已有知识的重组,若将其应用于商业用途,可能会构成对原作者版权的侵犯.2023年3月,美国新闻集团因其新闻内容被无偿用于ChatGPT等模型的训练中,而拟对OpenAI等技术制造商提起了版权侵权诉讼,这并非OpenAI首次被卷入版权侵权风波,早在2022年11月,开源程序员兼律师马修·巴特里克就曾对Github及其母公司微软和合作伙伴OpenAI提起集体诉讼,指控其开发的AI编程工具Copilot大规模侵犯版权.

2.2.2 挑战作者主体地位

随着GPT4的发展、应用与普及,关于“GPT4是否具备版权法中作者资格”的讨论甚嚣尘上,还有学者提出对AI产生自我意识乃至取代人类的担忧[13].在私权体系中,权利主体和客体的法律地位相互对应且永远无法转换.受“客体的非主体性”的制约,尽管GPT4通过不断学习已经逐渐具备“主体”的雏形,但“人”才能成为知识产权主体的基本规则不会改变[14].有学者指出,随着数据训练的加强,GPT4在简单的三段论、归纳推理、演绎推理等方面可以部分替代人类,但是在理解法律并完成负责任的判断上,尤其是在面对特定的情境判断时还力有不逮[15].管见以为,在本体论上坚持人类中心主义是有必要的.AI作为一种需要人类参与引导与训练的技术,是人类智慧物化的体现.尽管GPT4具有一定的信息编排和自主创作能力,但其不应该也不可能具备法律主体资格.国内外多家学术期刊出于学术伦理的考虑,已经开始禁止或限制使用GPT4等大型语言模型撰写学术论文的行为.如2023年1月,“Science”的主编霍尔顿·索普就发文明确禁止将大型语言模型列为文章作者[16].不管今后GPT4发展到多么强大和智能的程度,其技术属性始终不会改变.人类群星闪耀时命运依然攥在人类手中.

2.2.3 引发作品认定争议

GPT4的“智能”来源于RLHF训练,技术人员在收集反馈数据的基础上通过人工标注、强化学习进一步增强了GPT4模型的理解能力和交互表现.由于在预训练过程中大量学习了人类的语言结构、创作模式和表达技巧,GPT4不仅可以快速制造出语言流畅的语句,而且在内容上几乎与人类创作的文本难以区分.当GPT4的创作内容具备商业价值时就会引申出一个问题,即在GPT4不具备作者资格的前提下,是否应将GPT4生成物视为版权法意义上的“作品”?对此,有学者认为应建立一种独创性判断的客观标准,将AI创作物视为作品[17].也有学者认为缺乏人的创造性思维体现的AI创作物不能构成作品[18].在“菲林诉百度案”中,法院亦认为未体现人类独创性表达的AI生成内容即使具有独创性也不应视为版权法意义上的“作品”.虽然GPT4生成物的作品属性在现有的版权制度中还存在较大的争议,但其作为“物”的价值属性无疑已经得到了认可,未来是否将其纳入版权保护还有很大的可探讨空间.GPT4提供了争议十足的新话题场域,但还不构成对现行版权规范的挑战和重塑.今后须保持对GPT4在知识产权领域潜在风险的关注,防患于未然.

2.3 核心算法

2.3.1 算法歧视风险暗涌

GPT4的“智能”来源于程序员为达到特定目的而编写的代码和算法[19],其本身不具有道德和伦理的观念.依托于标准化程序和公式运行的算法被赋予客观、中立的表象,但绝对的算法中立是不存在的.GPT4训练中接收到的信息鱼龙混杂,缺乏筛选和过滤机制,在种族、宗教、性别等敏感话题上存在算法歧视的风险,可能会引发人格权、名誉权等方面的舆论争议和法律纠纷.现阶段,GPT4的预训练数据投入和算法设计工作主要依靠OpenAI公司技术人员的把关.因此,在GPT4的算法中不可避免地会带有一定的意识形态偏向,不够客观和中立[20].如在内容生产程序开发、资源调配和结果呈现的“流水线”中夹带主观偏好等[21].但是,GPT4算法的保密性让隐藏于其算法中的歧视和偏见难以被发现和纠正.

2.3.2 算法透明的可行性

从商业应用角度而言,GPT4的前几代产品都存在一定的缺陷或实验性质,GPT4是OpenAI自2019年转变为营利性AI公司后推出的首款成熟产品.目前GPT4没有免费版本,OpenAI也并未公开GPT4的底层算法、具体架构、训练方式等技术细节,这让其招致了大量批评之声.对此,有学者认为应推出提升算法透明度的硬性规定,通过公开源代码来实现更好的算法规制[22].也有学者指出算法透明在可行性和必要性上都存在瑕疵[23].管见以为,算法透明并非应对GPT4中算法歧视问题的良策.公开GPT4的底层算法虽然可以防止算法“黑箱”的滥用,更好地监督算法,但可能会导致算计、算法抄袭、知识产权侵权等问题.禁止在算法中加入对特定种族、信仰、性别群体的恶意歧视是理所应当的,但是否应在算法中实现身份中立,完全消除身份因素运用的问题仍值得商榷.过于中立、客观的规则实际上并不合理,可能反而会加重歧视和不平等的现象,因为无论算法如何修正,都会产生有利于一部分群体而不利于另一部分群体的结果.很多身份因素引发的所谓“歧视”,只是为了克服信息不对称而进行的一种理性筛选[24].随着社会的发展,原本不合理的统计数据会得到修正,算法歧视也会逐渐消弭[25].如果反算法歧视只是为了维持固有的社会观念,那也就放弃了利用算法来矫正不合理的社会价值观的可能.

2.3.3 迈向通用人工智能

根据埃米尔·波雷尔提出的“无限猴子定理”,如果让一只猴子在打字机上持续敲击键盘敲击无限长的时间,它就能在某一时间打出任何特定的文本.GPT4也可以被视为这样一只“猴子”.GPT4的模型是基于统计学建立的,早期GPT4的能力曲线会随着数据量的增长而持续上升.但是任何模型都有其能力边界,不可能实现无限拓展.在数据积累到一定规模后必然会遇到发展瓶颈.从促进AI技术发展的角度考虑,OpenAI公司应持续优化算法,把GPT4的未来发展目标定为真正的通用人工智能(AGI).技术乐观者认为GPT4是通往AGI的“康庄大道”,如微软在对GPT4早期版本进行系统调查后,认为GPT4在功能的广度和深度上已经大大超过了从前包括ChatGPT在内的所有AI大模型,可以将其视为早期版本的AGI[26].也有学者指出,目前NLP领域仍存在一些无法逾越的鸿沟,GPT4的表现机械性有余但灵活性不足,讨论AGI或许还为时尚早[27].图灵测试是AI智能程度判断的重要标准,阿兰·图灵认为如果机器能够在模仿游戏中表现得和人类无法区分,就应被认为具备人类智能[28].但是根据约翰·赛尔提出的“中文屋”论证,即使GPT4通过了图灵测试也不必然代表其已经拥有人类级别的智能[29].GPT4虽然比AlphaGO这样的专用AI更为全面,但还不具备在无监督条件下自行根据人物和语境切换工作知识域的能力,无法像人类一样胜任各种任务[30].为了让GPT4更接近于人类思维,通过代码和算法上的改变让GPT4具备元学习的能力,以已有的经验来指导新任务的学习[31],或许能让雷蒙德·库兹韦尔提出的“奇点”时刻早日到来.如今关于元学习的研究方兴未艾,参考类脑AI的研究思路,借鉴脑科学研究中人脑的神经回路和运行机制[32],也有助于打破传统冯·诺依曼架构体系的局限性,引导GPT4走向真正的AGI.

3 引申讨论:GPT4未来规制何以可能

社会制度的相对稳定性与技术发展的超前性之间一直存在着无法调和的矛盾.AI技术的飞速发展使社会陷入了“科林格里奇困境”,即在技术发展的早期尚无法预见其社会后果.当技术控制的需求变得强烈时它已经融合为社会结构的一部分,对其控制将极为困难.GPT4的“潘多拉魔盒”已经打开,人们需要客观地认识到开弓没有回头箭,避免“寸板不许下海”的错误重演[33].《礼记·中庸》有云:“凡事豫则立,不豫则废”,在GPT4的伴生风险变得复杂和不可控之前,有必要未雨绸缪进行事前规制.做到防微杜渐、谨慎发展,引导科技向善.

3.1 总体规制思路

在诸如GPT4之类生成式AI大模型的规制方案上,国内外多领域的专家学者都进行了深入的研究,并提出了独特的观点和见解.有学者指出,现阶段的AI监管重点仍应放在传统AI模型上,但为更好地适应生成式AI大模型带来的具体风险,有必要充分发挥技术中立型法律的作用,不断更新技术监管规则[34].也有学者建议灵活组合“先发展,再治理”和“边发展,边管理”2种节奏,秉承审慎包容的管理思维与逻辑,逐步建立针对性的多元治理体系[35].还有学者认为,讨论GPT4的监管方案时需要审慎考量监管手段,实时评估技术创新与强监管间的关系,探索通过监管沙盒的技术试点方式,在鼓励发展的同时将可能产生的负面效应控制在一定范围内[36].浅见以为,AI技术的发展给现有法律制度带来的挑战并未超出数据安全、知识产权、算法规制等常见风险问题的范畴.考虑到GPT4的数据规模、运算效率、模型精度等仍在不断进步和完善,且GPT4目前并未面向我国开放,设计具体详尽的规制方案为时尚早.GPT4本质上是一种为人服务的辅助性工具,在规制时应以AI技术的发展现状为根本,贯彻“以人为本”的核心理念,让其更好地为人服务.在当前的发展阶段,先切实做好顶层设计性质的总体性法律规制方案,把技术装进制度的“笼子”里才是更符合实际需求的规制思路.

3.2 推进AI专项立法

从立法角度来说,世界范围内已就AI领域的专门立法形成共识,2017年至今已有近70个国家出台了AI领域的专门法规,如欧盟的《人工智能法案》、美国的《国家人工智能倡议法案》等[37].2017年7月国务院印发的《新一代人工智能发展规划》中提出了AI领域立法“三步走”的战略目标:2020年,部分领域的AI伦理规范和政策法规初步建立;2025年,初步建立AI法律法规、伦理规范和政策体系;2030年,形成较为成熟的新一代AI理论与技术体系.目前我国AI专项立法规制体系尚付阙如,2022年9月我国首部AI产业专项立法《深圳经济特区人工智能产业促进条例》才姗姗来迟.法律规范数量少、层级低,缺乏顶层设计和统筹规划的问题较为突出,应正视我国在AI监管上与欧美发展水平存在的现实差距,尽快把GPT4的应用发展纳入法制化轨道.数字时代新技术与旧传统碰撞下形成的中国问题具有其特殊性,很难简单地通过对西方国家已有方案的“移植”或“比附”来解决.今后应拓宽立法视野、完善立法内容,寻求数字时代的自主创新.浅见以为,法律是需要顺时而变的.考虑到GPT4实践中产生的隐私泄露、版权侵权、算法歧视等风险问题,应通过AI专项立法的顶层设计为GPT4的应用场景和产出内容划定红线、标明底线.同时,借助媒体、企业等渠道做好全方位的GPT4使用指引,让社会公众认清GPT4的技术本质,理性、客观、审慎地使用GPT4,坚持守住底线、不越红线,通过法律赋能社会治理.

3.3 扩展算法治理规范

在GPT4的规制上不能一味地盲目追求创新,应考虑扩展我国已有的算法治理规范.2023年4月,国家互联网信息办公室发布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《管理办法》).《管理办法》第16条指出,生成式AI服务提供者应根据《互联网信息服务深度合成管理规定》(以下简称《管理规定》)对生成的图片、视频等内容进行标识.2023年1月10日起施行的《管理规定》第23条中以开放式的规定将“深度合成”技术定义为利用生成合成类算法制作网络信息的技术.《管理规定》在效力位阶上属于部门规章,其上位法有《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《互联网信息服务管理办法》等法律、行政法规,监管机构包括中央和地方网信部门、电信主管部门和公安部门,自上而下织起了一张系统完备的法律监管网络.尽管以预训练为基础的生成式AI大模型和《管理规定》的适用对象DeepFake并非完全匹配[38],但是浅见以为,从技术属性出发对GPT4作出探究和定义难有定论.在探讨法律角度对GPT4的规制方案时应具有一定的前瞻性和预见性,把目光更多集中于GPT4的宏观经济价值,即它对于公众、经济、社会的影响[39].当下处于AIGC顶端的GPT4正在推动制造业、金融科技、投资营销等诸多领域的转型升级[40],尽快将其纳入法治轨道是推动我国经济社会高质量发展的应有之义.从技术特点和原理上看,生成式AI与深度合成技术高度重合.未来应进一步厘清《管理办法》和《管理规定》的衔接与适用方式,通过对《管理规定》中深度合成技术概念上的细微调整,将生成式AI纳入深度合成技术的范畴[41].

4 结束语

如今GPT4正在无孔不入地渗透到人们日常生活的各个层面,AI时代已经悄然来临.AI时代的到来是科技发展到一定历史阶段的必然结果,可以预想今后接近乃至超越GPT4的模型会接连不断地涌现.党的二十大报告指出,要推动新兴产业融合发展,构建信息技术、AI等新一批增长引擎.我国AI产业正驶在发展的快车道上,AI已成为制造强国和网络强国建设的新动力引擎.人们在享受AI技术带来的便利时也应警惕其背后的风险与挑战.以GPT4应用时数据、产权、算法等方面的内生风险为切入点,探讨GPT4发展中存在的问题具有其理论意义与实践价值.GPT4未来发展充满不确定性,今后应进一步结合市场发展情况和我国国情,从技术和制度层面强化对GPT4风险治理的研究[42].在我国已有实践成果的基础上寻求自主创新,积极探索趋利避害的可行路径,协调好长远与当下的关系,构建更符合技术发展的制度环境.