APP下载

生成式人工智能的数据风险及其法律规制
——以ChatGPT 为例

2024-05-17

科技管理研究 2024年5期
关键词:人工智能算法模型

吴 静

(吉林大学理论法学研究中心,吉林长春 130012)

0 引言

随着以ChatGPT 为代表的生成式人工智能技术的快速发展,其直观易用、高效低耗的技术优势为社会经济带来了新的发展机遇,同时也引发了数据安全风险、虚假信息传播、偏见歧视等诸多问题。目前,生成式人工智能技术正处于技术概念演进丰富的阶段,其未来究竟能在生产进步、产业应用、商业化演绎中发展到何种地步尚未达成基本共识,有鉴于此,我国可以考虑从顺应产业发展、平衡安全与效率的角度出发,立足数据这一人工智能和算法模型的基础原料,厘清义务边界,完善规制措施,形成有针对性的规范体系,从而抓住数字经济时代借助人工智能技术发展“弯道超车”的机会。

1 ChatGPT 引领生成式人工智能的发展热潮

艾伦·图灵在《计算机器与智能》中提出了著名的“Turing test”,即判定机器是否具智能的试验方法,就是机器是否能够模仿人类的思维方式来生成内容继而与人交互[1]。随着数据快速积累、算力性能提升和算法效力增强,生成式人工智能(以下简称AIGC)发展到今天不仅能够与人类进行互动,还可以进行写作、编曲、绘画、视频制作等创意工作,ChatGPT 就是其中的典型代表。

1.1 ChatGPT 的发展与演进

2022 年11 月30 日,美国人工智能公司OpenAI发布了其开发的大型语言模型ChatGPT,全称“Chat Generative Pre-Trained Transformer”,意为聊天生成型预训练变换模型。这是一款人工智能技术驱动的自然语言处理工具,以对话的形式与用户进行自然交互,能够根据用户的文本输入,产生相应的智能回答,完成在线搜索、翻译、代码编辑、文本生成、表格图像生成、数学计算、数据分析等任务[2]。

自首次公开后,ChatGPT 就受到全球瞩目,成为历史上活跃用户增长速度最快的信息应用技术。3 月14 日,OpenAI 再次发布新版本的GPT-4。与此前的版本相比,GPT-4 在开源合作、模型参数、算法算力、人工反馈、芯片性能、资金投入等维度进行了全方位创新升级,处理文本的长度扩展到25 000 个词,创作能力提升,并新增图片处理能力,多模态数据处理能力升级,性能迭代之迅速令人称奇,微软创始人比尔盖茨评价ChatGPT 与互联网的发明一样重要[3]。随着ChatGPT 的爆火,诸多科技类企业如谷歌、英伟达、奥多比等纷纷推出生成式AI 模型、产品和相关底层基础设施及服务,我国则有百度公司推出“文心一言”、360 公司推出“360智脑”、阿里巴巴推出“通义千问”等生成式人工智能产品,腾讯公司的混元大模型也在2023 年9 月首批通过备案,陆续面向公众开放。

1.2 ChatGPT 的技术路径

作为生成式人工智能算法模型,虽然OpenAI 并未公开ChatGPT 具体技术原理,但通过Instruct GPT的说明提示,可以推证其技术路径主要是“模型+学习机制+算法+人工反馈”的深度学习训练方式。即通过奖励模型、基于人类反馈的强化学习机制和近段端略优化算法进行迭代,在流畅性和连贯性方面优化输出结果。相较于传统的智能聊天机器人,GPT-4 拥有更强大的模型演进能力、通用能力、多轮对话能力和复杂推理能力,能生成更加自然、更像人类口语化的对话内容,在语义理解的精准度、信息输出的准确率、逻辑性及语言流畅自然度方面优于竞品。

作为一个大型的自然语言处理模型,ChatGPT在其训练过程中使用了大规模的数据分析及基于人类反馈的数据标注训练,无论是模仿能力、编辑能力、还是创造能力都需要在数据提炼、分析、学习的基础上才能得出智能化结论、作出趋势性预测。因此,从数据角度分析生成式人工智能的潜在风险,遏制生成式人工智能在技术发展中的潜在隐患,并从法律规制角度为新兴人工智能技术发展消除负面影响、配合技术发展趋势,有着迫切的现实意义。

1.3 当前ChatGPT 的法律规制比较

目前,我国已经形成了以《民法典》《网络安全法》《数据安全法》《个人信息保护法》《电子商务法》《互联网信息服务管理办法》等法律法规和《互联网信息服务深度合成管理规定》《网络信息内容生态治理规定》《网络音视频服务管理规定》《互联网信息服务算法推荐管理规定》等部门规章为框架的规范体系[4]。2023 年4 月中旬,国家网信办公布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《征求意见稿》),全面规范了生成式人工智能的研发、利用。三个月后,国家网信办等7 部门联合公布了《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),并于2023 年8 月15日正式实施。与《征求意见稿》相比,《暂行办法》做出了较大改动,对于一些争议较大的条款做出了调整修改,从安全治理与责任分配出发,梳理了服务提供者、算法、内容、用户、监管机制等方面的义务,并强调了与《网络安全法》等上位法,以及《互联网信息服务算法推荐管理规定》(自2022 年3 月1 日起施行,以下简称《算法推荐管理规定》)、《互联网信息服务深度合成管理规定》(自2023 年1 月10 日起施行,以下简称《深度合成管理规定》)等规范的衔接与承继关系。作为全球首部针对生成式人工智能的立法,短短三个月时间,从征求意见稿到正式稿的出台,体现了国家对于人工智能技术飞速发展的关切,彰显出中国以人为本、安全发展并重的治理理念。

但是,相关规范在规制生成式人工智能方面面临两个问题:一是受到应用场景的限制,无法直接对其进行有效规制;二是规范效力不统一,导致在治理目标、治理机制和治理尺度上存在不一致的现象[5]。比如在算法备案方面,《算法推荐管理规定》《深度合成管理规定》及《暂行办法》都明确了具有舆论属性或者社会动员能力的提供者应当履行备案手续,但后二者要求相关服务提供者在变更、注销时也应当履行备案手续。又如在安全评估方面,《算法推荐管理规定》和《暂行办法》要求具有舆论属性或者社会动员能力的服务提供者应当按照国家有关规定开展安全评估,《深度合成管理规定》则将安全评估范围扩大为开发上线具有舆论属性或者社会动员能力的新产品、新应用新功能的都应当按照国家有关规定开展安全评估。在内容标识方面,《算法推荐管理规定》没有做出具体的规定。《深度合成管理规定》要求服务提供者采取技术措施对使用其服务生成或者编辑的信息内容添加不影响用户使用的标识,并保存日志信息;明确了五种应当向公众提示深度合成情况的具体情形,同时要求凡可能导致公众混淆或者误认的情况,都应当作出显著标识。《暂行办法》要求提供者在研发生成式人工智能技术研发过程中制定清晰、具体、可操作的标注规则,开展数据标注质量评估、抽样核验标注内容的准确性,并对标注人员进行必要培训和监督指导,提升其遵法守法意识,规范标注工作。鉴于相关规定在具体文本表述及提供者履行相关义务的边界界定上不尽相同,立足数据这一基础依托开展风险分析、法律回应和技术规制,对形成有针对性的人工智能法律规范体系有着重要的现实价值。

2 ChatGPT 带来的生成式人工智能数据风险

从工作原理来看,ChatGPT 作为对话式机器人,需要与用户进行人机交互,而后通过大模型生成相应的回答。整个大模型运行过程中涉及的数据可分为四类,即预训练数据、人工标注数据、抓取数据、人机交互数据。在应用过程中,各种类型的数据所面临的法律风险是有所差异的,因此我们需要结合具体场景加以分析。

2.1 预训练数据的来源合法性风险

根据OpenAI 的介绍,ChatGPT 作为一种语言模型,拥有大量被训练过的文本数据,并通过学习这些数据完成对自然语言语法、结构、词语之间的关系和上下文理解的习得。但是ChatGPT 未公开其用于预训练的语料数据集来源。根据公开报道和业界人士的反向推证,ChatGPT 训练数据60%来自于C4语料库(2016 至2019 年)、22%来自于由OpenAI收集整理的WebText2(数据更新至2020 年4 月)和美国政府公开数据库数据、15%来自于书本、3%来自于维基百科,以英文数据为主,中文训练数据少。一方面,巨量语料数据的来源合法性存疑,张学博等[6]学者甚至直言ChatGPT 目前仍属于算法黑箱,其是否有权获取和使用这些数据目前仍然是存在疑问的。另一方面,针对海量数据的真实完整性开展审核,不仅工作量巨大而且经济效益低,出于成本与收益的考虑,开发者并未将预训练数据视作事实材料,而是将其视为语料,即更注重的是其符合语言规则和文本理解,而并不强调事实的真实性、客观性、准确性与科学性。数据来源不明、数据格式混杂、内容缺失、核查困难、可控性较低等诸多问题,使得生成式人工智能在开发过程的过程中就埋下了失实、错误、偏见的隐患与缺陷。

2.2 人工标注数据的价值偏差及意识形态风险

OpenAI 招募人类训练师扮演用户和人工智能助手角色,训练ChatGPT 以更像人类的方式和用户持续进行多轮模拟对话,并组建专门的人工反馈团队,纠正回答中不符法律规范、道德约束的内容,提升沟通的真实性、无害性和有用性,对标人类预期答案。以语料数据训练为基础的ChatGPT 并不具备真正意义的创新能力和价值判断能力,所产生的文字是对现有语料的深层次重组再造,呈现的价值观是对其训练数据所蕴含价值的反映。数据标注正是机器学习和自然语言处理领域中非常重要的一环。一方面,作为大模型背后的算法构建离不开算法工程师的编程,其在编程的过程中也会自觉或不自觉地将自身内隐偏见以代码形式外化并嵌于模型架构之中[7]。ChatGPT 的投资公司Microsoft 和开发公司OpenAI 均为美国高科技企业,西方资本主义价值观对模型架构的影响几乎无可避免。另一方面,人类训练师及数据标注员的文化价值观、专业知识、语言和地理背景,直接影响对数据的解读,其价值观对数据标注结果起着决定性影响。机构效应与意识形态可以通过影响人工标注与排序的一致性,进而形成人的语义世界的价值或意识形态的重构。ChatGPT 的训练数据来源于英语语料库,其在中文等其他语种的对话能力、常识积累、文化储备、文本输出准确度和精度方面存在明显不足,文化与价值观的兼容性差,客观上加大了价值观的数字鸿沟,也加大了危害我国的意识形态安全的可能性。

2.3 抓取数据的真实性、合规性风险

人工智能的社会化应用在很大程度上依赖于大数据、决策技术和算法的交互使用[8]。ChatGPT 之所以迭代速度惊人,与其具有高度的智能化特征,能够自主地利用互联网收集全球开发者及用户的反馈数据来调整参数,循环优化、高效迭代模型有关。在“实际应用-数据回流-模型改进”模式中,ChatGTP 可以自发地通过网络抓取的方式将互联网上所有相关字段进行采集与处理,且ChatGPT 在获取数据方面是无差别的,可以不受人类干预与控制。这意味着,一方面ChatGPT 获取的数据很难进行实质性的甄别与筛选,存在来源不清、信息缺失、内容虚假甚至是全然错误等问题,具有真实性存疑的风险。另一方面,虽然互联网上存在大量可以自由访问的信息,但抓取行为可能会因为数据来源的不同而产生不同的法律风险。

这些风险包括但不限于:(1)如果获取的是已整合公布的国家数据、政务数据。鉴于相关数据即便公开亦需要遵循法定的利用规范流程的特殊性,ChatGPT 在没有获得授权的情况下收集、使用并深度加工国家数据、政务数据有不合规之虞。(2)如果获取的是公共数据中已开放的个人信息,ChatGPT虽然可以根据《个人信息保护法》第27 条的规定进行收集和处理,但其利用个人信息进行算法训练的行为是否属于合理范围以及该行为对个人权益有重大影响的认定仍然存在很大的争议和不确定性。而且ChatGPT 的隐私条款中既没有对收集到的个人信息全部仅用于训练使用作出实际承诺,也没有明确其收集数据时仅限于最低限度以及合理使用范围,对应于《个人信息保护法》第6 条“处理个人信息应当限于实现目的的最小范围”而言,这无疑存在极大的合规隐患。(3)如果获取的数据来自对受著作权保护作品的挖掘。由于我国著作权法和司法实践中并未承认文本挖掘构成合理使用,ChatGPT 如果在没有获得作者授权的情况下就对文本数据进行收集、处理、深加工,将触及挖掘行为授权、二次创作许可、著作权侵权等法律风险。(4)如果是通过网络爬虫从具有禁止第三方爬取数据条款的网站获取的数据。依据2022 年12 月公布的《中华人民共和国反不正当竞争法(修订草案征求意见稿)》第18 条“经营者不得违反约定或者合理、正当的数据抓取协议,获取和使用他人商业数据”,这类数据属于企业的竞争性财产权益,在未告知的情况下抓取此类信息将构成不正当竞争。(5)如果获取的是非法来源的数据。如用户在合法网站上传侵权作品、盗版书籍或非法信息,甚至直接创建非法网站,则ChatGPT的抓取、处理行为本身即是侵犯他人权益,甚至可能构成非法获取计算机信息系统数据罪[9]。

3 生成式人工智能数据风险引发的逆向刺激

ChatGPT 作为生成式人工智能技术的里程碑式产品,在“大数据+大算力+强算法=大模型”的技术路线基础上,向“基础大模型+指令微调”的方向进行持续探索,成功开创了全新的技术应用范式[10]。利用大模型技术,推动人工智能技术落地模式变革,构建“低门槛、高效率、高情商”的人机共创新模式,不仅对应用场景、基础设施等各层面产生深刻影响,更给人类社会带来了真实而紧迫的安全风险和法律挑战。

3.1 人机互动过程中的数据安全问题

(1)数据泄露隐患大。ChatGPT 会对用户使用过程中输入的信息进行迭代训练,一经上线便被大量应用于公文写作、代码编写等工作领域,产出能力极快。在使用过程中,用户可能会向大模型披露个人信息、商业秘密甚至是国家安全信息,ChatGPT强大的推理能力导致个人、企业和政府数据存在泄露风险。三星DS 部门于2023 年3 月11 日允许员工使用ChatGPT,20 天内出现3 起机密资料外泄事件,半导体设备测量资料、产品良率等内容已被存入ChatGPT 数据库中,并传输至美国公司。目前,微软已宣布将Office 与ChatGPT 整合,推出Microsoft Teams 高级版,可自动生成会议笔记,加大政府及企业办公数据泄露隐患。

(2)数据跨境流动风险高。ChatGPT 并非本地化部署,根据ChatGPT 隐私政策第8 部分(security and retention)及 第9 部 分(international users),Open AI 所收集的个人信息将存储于美国,而且在存储期限维度没有进行明确约定。这意味着,如果国内主体使用ChatGPT 输入个人信息、商业秘密或者国家安全信息等数据时,这些数据将先被传输至境外数据处理中心,再由应用反馈回复。相关数据将被存储到ChatGPT 自身的语料库中,且存储期限不明确[11]。当数据传输量达到一定规模,大概率在事实上构成数据出境。如果未能得到及时有效的审批、监管,则不仅会引发极大的商业风险,而且可能通过渗透数字安全进而影响国家安全。

3.2 人机互动过程中生成数据的知识产权归属问题

以ChatGPT 为代表的生成式人工智能不单能完成自然语言的处理与输出,其在撰写演讲稿、写代码、写专利、写论文、做翻译、编剧本等各种跨行业的业务上几乎无所不能。人工智能生成数据能否获得专利权、著作权等知识产权的保护也成为理论界与实务界热议的话题之一。

(1)关于人机互动过程中生成物的可专利性。对于符合专利法条件的人工智能技术可以获得专利保护目前在域内外的学界和实务已基本达成共识。但是,利用人工智能技术所发明出的生成物能否获得专利权,在实践中还存在较大分歧。如自2019 年开始,人工智能系统DABUS 的创造者Stephen Thaler陆续在全球发起专利申请,将DABUS 指认为专利发明人,并引发持续至今的一系列案件。美国、英国、澳大利亚、新西兰等国家相继否认了DABUS 的发明人地位,仅有南非将其登记为发明人。关于人机互动过程中生成物的可专利性分歧产生点在于人工智能发明创造主体的身份资格认定问题,以美国专利法35U.S.C.为例,第100 条、第111(a)条都明确要求发明人和共同发明人必须是人[12]。这里的人不仅仅是指生理上的人类,而是指被专利法认可有资格的自然人,不认可机器具有发明人身份资格[13]。而南非由于其专利法并未定义发明人一词,对专利采用的是无实质审查制度,不会在授予专利权前审查有关申请是否具有新颖性和创造性,只有在他人对专利进行申请撤销时才会审查相关专利的实质性问题。从我国的专利保护实践来看,我国专利法《实施细则》第13 条明确规定专利法所称发明人或者设计人,是指对发明创造的实质性特点作出创造性贡献的人,即从文义解释出发,如果相关主体以生成式人工智能技术作为专利的发明人申请专利,恐难以通过实质审查,即便是人工智能技术高度自主研发的生成物也因技术本身不具备专利法上的发明人资格而不能获得专利权。

(2)关于人机互动过程中生成物的著作权保护。传统的分析式人工智能大多提供信息检索或单句对话服务,学界和实务界基本达成了此类作品不符合版权注册的要求、不受版权法保护的共识。而ChatGPT 类人工智能通过与人类的互动产生了大量的交互数据,其中既涉及文本内容的自动化编纂、智能化润色处理、表达范式的转换,也存在呈现内容的多模态转换、视觉元素的重新编排,甚至代码模型的组织架构。反对将生成式人工智能生成的内容视作《著作权法》中作品的学者认为,对于人工智能生产的内容虽然在表现形式上与传统智力成果几乎没有区别[14],但本质上更多的是应用算法、规则和模板的结果,不具有个性特征,不符合作品独创性的要求,因此不能构成作品[4]。而深圳市南山区法院在裁判腾讯诉上海盈讯公司著作权侵权案中则认为从涉案文案的外在形式与生成过程分析,该文章的特定表现形式及其源于创作者个性化的选择和安排,并由Dreamwriter 软件在技术上生成的创作过程均满足著作权法对文字作品的保护条件,本院认定涉案文字属于我国著作权法所保护的文字作品[15]。上述两种观点,无论是支持还是反对,其结论都是基于一个共同的前提,即人工智能缺乏自主意识。然而随着生成式人工智能技术的迭代,也有学者指出目前ChatGPT 类人工智能已经发展到能够在生产中注入自主意识,通过神经卷积形成深度学习能力,具有类人的智慧和自我反省能力,建议应当基于技术模型剖析生成式人工智能的知识产权属性,对ChatGPT 的生成物赋予知识产权加以保护[16]。

康德[17]指出在自然界中,每一物件都是按照规律起作用。唯独有理性的东西有能力按照对规律的观念,也就是按照原则而行动,或者说,具有意志。因此,从自由意志的哲学思考和社会制度构建考虑出发,笔者认为ChatGPT 虽然在接收端受到了用户的直接指令要求和控制,但其基于奖励模型、人类反馈的强化学习机制和近段端略优化算法进行自主迭代并自发在流畅性和连贯性方面优化输出结果,事实上具备了一定的自主创作能力,人机互动过程中的生成物具有独创性与创新性,应当受到著作权保护,生成式人工智能技术可以作为共同创作者受到著作权法的保护。

3.3 虚假数据投喂导致的违法犯罪问题

ChatGPT 的前端是数据集的所有者和研发者,中端是算法模型,后端是模型的使用者。ChatGPT线上实时交互的过程中,用户与大模型的投喂操作一方面丰富了开发者的数据集,另一方面也使得部分别有目的的用户和组织可以利用生成式人工智能的算法原理来对大模型产生偏向性训练,通过投放存在事实性错误和常识偏差等问题的内容,误导人工智能的算法模型,从而生成含有暴力、种族歧视、淫秽内容、毒品和犯罪等倾向的不良、虚假甚至违法信息。轻则扰乱信息的真实性、客观性与准确性,误导普通用户。重则若是被一些不法分子利用其高产能的便利性、大模型的偏向性,快速产生出不利我国健康稳定发展的虚假信息,并大批量投放至网络上,将严重影响社会稳定,危害国家安全。

4 生成式人工智能数据风险的法律规制

ChatGPT作为生成式人工智能技术的重大突破,使得人工智能产业迎来拐点,提升了人类生产生活效率并为智能化社会带来更大的想象空间,也为经济社会发展带来诸多问题和风险。这些风险看似是新技术带来的挑战,但实质上仍没有超越现有的研究范畴[18]。无论是数据来源的合法性风险、信息泄露的现实挑战还是不良、虚假或违法信息的生成问题,本质上还是传统数据管理带来的风险映射,根源仍然在于科学技术的进步与数据监管滞后之间的冲突。因此,笔者认为可以基于过往技术规制的经验来选择最佳规制理论和法律路径。

4.1 选择包容审慎路径

随着ChatGPT 这类生成式人工智能技术的变革性发展的到来,越来越多的企业、组织、国家意识到人工智能技术未来将深刻影响科技产业、社会经济发展,甚至各国经济科技和军事等综合实力对比。目前,全球人工智能发展呈现出中美两国引领、其他国家激烈竞逐的总体格局,新技术重塑世界竞争新格局的情形正在当下发生。对于监管者而言,传统监管体系和监管手段已经无法完全适应新模式、新产业、新业态不断涌现带来的规制不确定性,必须要用前瞻性视角去审视科技创新,改进传统法治手段,摒弃运动式执法或运动式治理,转向更为灵活、敏捷的“包容审慎监管”路径。

国务院办公厅2017 年发布《关于创新管理优化服务培育壮大经济发展新动能加快新旧动能接续转换的意见》,首次明确提出探索动态包容审慎监管制度。2020 年1 月,随着《优化营商环境条例》正式实施,包容审慎监管这一最初作为公共政策话语的概念演变为正式的法律术语。对于生成式人工智能这种一时看不准发展趋势的新技术、新模式,笔者认为监管者应当在法治轨道上推进理性的包容审慎监管,一方面要包容监管,即对人工智能发展中可能存在或者产生的错误持宽容态度,特别是在这种新业态发展的初期阶段,要给技术和市场的发展留足必要的发展时间和试错空间[19];另一方面要审慎监管,即着眼于维护国家权益、公共利益及公民个人合法权益的价值取向,持续地追踪与分析技术的重要变化,对兴新技术发展带来的潜在风险进行积极预防和控制,发展中规范、在规范中发展,实现效率与安全的平衡。

4.2 完善分类分级规制

《暂行办法》对生成式人工智能发展提出了分类分级监管的思路,一是在第三条明确了对生成式人工智能服务进行分类分级监管的原则;二是在第六条强调了必须要有序推动公共数据的分类和分级开放,并扩大高质量的公共训练数据资源;三是在第十六条中指出由国家有关主管部门根据生成式人工智能服务适用的不同领域制定相应的分类分级监管规则或者指引,进行行业部门监管。数据分类分级的监管思路在《中华人民共和国数据安全法》的二十一条已有类似体现,行业主管部门参与监管政策的制定可以使人工智能监管法规具有更强的针对性,二者相辅相成,共同促进立法对生产人工智能的监管体系的强化。但是目前我国并未提出进一步的数据或者生成式人工智能技术分类分级依据以及操作办法。可以考虑由各行业主管部门根据行业特点或需求,依据生成式人工智能应用的服务场景,制定分类分级规范指引。对应用中可能出现的风险及影响从高到低进行排序,再根据不同风险等级划定不同的监管方式,在强调技术治理与规范的基础上,厘清义务边界。

4.3 健全立法规制体系

相较于《算法推荐管理规定》《深度合成管理规定》两部规范,《暂行办法》不少条款从数据监管出发积极回应了生成式人工智能带来的风险挑战。如《暂行办法》第四条从国家社会、主体平等及隐私安全3 个角度回应了生成数据的价值取向和真实性、合法性、安全性要求;第七条至第十七条厘清了预训练数据、标注数据、生成数据的责任主体和基本要求,对生成式人工智能服务提供者作了安全评估、算法备案、内容标识等方面的义务规制[20]。特别是《暂行办法》第七条明确了对预训练数据、优化训练等训练数据处理活动应当遵循的原则。但相关标准界定仍处于模糊地带,如第七条第四款要求采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。从法律术语来看,这条对服务提供者所提供的要求非常高。目前的技术实践中,大众搜索引擎甚至学术研究提供的内容都很难保证其真实准确及客观多样性。再比如,第七条要求生成式人工智能服务提供者必须确保训练数据来源的合法性,然而却未明确规定提供者应承担的具体责任程度,仅是提示性地要求生成式人工智能服务提供者使用的训练数据如果包含个人信息,应当征得个人信息主体的同意或符合法律、行政法规规定的其他情形。由于《暂行办法》效力阶层所限,其本身无法为个人信息处理的合法性基础设置例外条款,且2023 年度国务院立法工作计划已将《人工智能法草案》列为预备提请全国人大常委会审议的法律草案,可以考虑今后参照知识产权制度中的权利用尽原则,在《人工智能法》中增加数据责任豁免制度,明确提供者通过公开的数据交易所进行数据交易获得的数据,只要能证明其有合法来源,就可以对数据原权利人免除侵权责任。引入大数据产品供给的形式,既能厘清责任边界、解决数据来源合法性问题,又能提高生成式人工智能技术提供者获取数据的效率,还能打通数据与人工智能交互的上下游产业链条,可以形成多赢的良性循环。

5 结论

ChatGPT 作为人工智能技术的重大突破,在极大地提高人类工作效率的同时也对传统法律体系带来了一系列挑战。从数据角度分析生成式人工智能的潜在风险,遏制生成式人工智能在技术发展中的潜在隐患,并从法律规制角度为新兴人工智能技术发展消除负面影响是确保ChatGPT 等人工智能技术良性发展的必然选择[21]。目前我国已针对人工智能技术建立起了初步的规范体系,但为了更好地抓住数字经济时代借助人工智能技术发展的机遇,我们应该以包容审慎的态度,从顺应产业发展、平衡安全与效率的角度出发,对生成式人工智能的专门立法进行优化,以科学的技术治理配合技术发展趋势,形成有针对性的规范体系。

猜你喜欢

人工智能算法模型
一半模型
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
2019:人工智能
进位加法的两种算法
人工智能与就业
数读人工智能
3D打印中的模型分割与打包