大模型崛起背后

2023-12-01法人张逸瑞张津豪张一凡周彤

法人 2023年9期

《法人》特约撰稿张逸瑞张津豪张一凡周彤

编者按：

7月31日，苹果APP Store 宣布对中国大陆提供Chat GPT 类服务的应用集中下架。在面向应用开发者给出的回复中，苹果官方表示，相关应用未依据中国大陆地区法律要求取得许可证，故“需下架整改，整改完毕上架”。某种角度而言，该情况可以理解为《生成式人工智能服务管理暂行办法》（下称《AIGC 暂行办法》）施行在即引发的“连锁反应”。

8月15日施行的《AIGC 暂行办法》是中国亦是全球针对生成式人工智能服务领域制定的首部法规，其中提出了对生成式人工智能服务的分类分级监管要求，明确了提供和使用生成式人工智能服务总体要求。一定程度上，其标志着中国生成式人工智能服务领域进入强监管和高合规标准的新阶段。

中国对生成式人工智能服务的合规监管强化早已有迹可循。早在今年年初，国家互联网信息办公室、工业和信息化部、公安部针对深度合成服务制定的《互联网信息服务深度合成管理规定》（下称《深度合成管理规定》）顺利施行，明确了深度合成服务相关方的义务与主体责任，强化了对互联网信息服务深度合成领域的管理。《AIGC 暂行办法》将与《深度合成管理规定》一并为中国大模型领域构建更为完善的治理和监管框架。

本文对中国监管体系项下的大模型领域合规要素予以梳理，并重点关注现实环境下落地应用的大模型主要合规义务。

防范大模型被恶意利用犯罪

大模型即Foundation Models，通常指具有大量参数和复杂结构的深度学习模型。其内含大量参数，需要数十亿甚至上百亿个参数，相较于传统的较小规模模型，大模型具有更高容量和表达能力。大模型可以通过训练大规模数据集，实现更准确预测和更高性能，并依据相关指令，完成各种目标任务。熟知的OpenAI 的ChatGPT 与Google 的Alpha Go 就是典型的语言类大模型：ChatGPT 以Transformer 模型为基础，具有1750 亿个参数；而Alpha Go 具有超过1亿个参数。

根据百度、华为等企业近期密集发声的情况来看，目前企业应用大模型主要体现为以下三种模式：一是自主构建基础大模型，但考虑到训练大模型的成本和技术壁垒非常高，只有少数企业自建大模型；二是建立行业大模型，通常是了解行业know-how 的企业，结合自身掌握的行业数据，用基础大模型精调出更贴合实际场景的垂类行业大模型；三是在基础大模型和行业大模型之上开发AI 应用，这也是目前大多数企业采取的模式。

以大模型为技术基石的生成式人工智能，是以大模型为技术基石，继专业生产内容（Professionally-Generated Content，PGC）、用户生成内容（User-Generated Content，UGC）之后的新型内容创作方式。在大模型支撑下，早期生成式人工智能在文本生成领域以内容创作为主，后逐渐向音频生成、图像生成等领域推广，逐步在企业端和消费者端变现，并完成在消费、产业、学术等诸多场景的落地和应用。

目前，微软已将ChatGPT 嵌入微软各大系列产品，包括将GPT-4 接入搜索引擎New Bing 和Edge 浏览器、推出集成New Bing 和其他插件的AI 助手平台Copilot 以应用于Office、协作软件Teams 以及其他商业应用。同时，OpenAI 正着手打造基于语言类大模型的应用商店，打通所有接入ChatGPT 的应用体系。

总体而言，大模型在自然语言处理、图像识别、语音识别等领域取得了显著成果，带来更精准和高效的机器学习和人工智能应用。但大模型迅速推广应用引发一系列隐患，如大模型服务被恶意利用开展违法犯罪活动、协助罪犯进行AI 诈骗。又如部分高校师生利用大模型大量生成文章或研究内容，在学术造假、学术不端的同时，不知不觉侵犯了潜在权利人的知识产权。此外，还引发了虚假信息传播、数据和隐私信息泄露、偏见歧视等诸多问题。因此，大模型的推广应用，势必伴随着系统规范建立大模型合规监管体系。

大模型合规义务承担主体

在中国当前监管体系下，大模型合规要素主要涉及范畴包括平台运营合规、内容合规、平台管理合规、网络安全与数据合规、算法技术合规、国际联网合规等方面。

对上述合规要素提及的“生成式人工智能技术”“深度合成技术”“算法推荐技术”“具有舆论属性或社会动员能力的互联网信息服务”等大模型合规重要概念，需要说明的是，大模型的核心概念其实是“深度学习+自动生成”，而生成式人工智能技术、深度合成技术和算法推荐技术并非相互独立，三者相互配合运作才形成完整的大模型结构。同时，在满足一定条件情况下，基于生成式人工智能技术、深度合成技术和算法推荐技术所提供的服务会成为具有舆论属性或社会动员能力的互联网信息服务，而该等服务需要满足特殊的合规要求。

大模型服务提供者，即利用大模型技术提供服务的组织、个人。具体来讲，大模型服务提供者分为以下两类：平台运营方和技术支持方。

平台运营方指负责大模型的商业性开发，依据相关规定取得相应资质证照，承担相应义务与责任，提供大模型技术应用服务的组织、个人。在大部分情形下，平台运营方针对的是面向终端消费者的大模型应用场景，比如百度文心一格网站、抖音快手的一些AI 特效功能。

技术支持方指负责大模型的技术性开发的组织、个人。技术支持方是大模型的设计者、开发者和完成者，掌握着大模型背后的核心算法和运行规则，负责处理数据训练、生成内容标记、模型优化等技术性事项。在大部分情形下，技术支持方针对的是面向企业的大模型应用场景，通常以API 形式为企业等提供大模型技术支持。

在《深度合成管理规定》中，合规主体分为“深度合成服务提供者”和“深度合成服务技术支持者”，分别对应上述“平台运营方”和“技术支持方”；而《AIGC暂行办法》《算法推荐管理规定》等相关法律法规，均未对“生成式人工智能服务提供者”“算法推荐服务提供者”进行进一步区分。尽管如此，根据该等规定项下“人工智能服务提供者”“算法推荐服务提供者”责任和义务相关的具体规定，“平台运营方”和“技术支持方”同样需要依据其提供的服务内容及类型承担不同责任和义务。例如，负责模型训练的技术支持方，应当确保训练数据的来源合法合规，而不参与模型训练、不涉及训练数据处理活动的平台运营方应当对技术支持方提供的模型进行必要合规审查，要求技术支持方对训练数据来源的合法合规性进行陈述保证等。

CFP

如何向境内公众提供大模型服务

根据《AIGC 暂行办法》，行业组织、企业、教育和科研机构、公共文化机构、有关专业机构等研发、应用生成式人工智能技术，未向境内公众提供生成式人工智能服务的，不适用本办法的规定（第二条）。需要遵守相关大模型合规义务的主体，指向境内公众提供服务的大模型服务提供者。若上述主体未向境内公众提供服务的，则不适用大模型相关合规规定。

基于前述规定，实践中出现了仅面向企业端提供大模型应用服务的大模型服务提供者是否可适用前述规定、豁免相关合规义务的讨论。从该条款目的来看，加强大模型的合规与监管要求旨在规范公共层面的数据流通、传播，避免重要、敏感信息泄露以及防止违法、虚假信息和内容在社会层面广泛传播。因此，如果大模型服务提供者仅面向特定企业提供服务，且该企业仅在企业内部使用大模型服务，不会导致大模型服务成果向公众流通，则有可能并不适用相关合规义务。

然而，若大模型服务提供者（“A 主体”）作为技术支持方自研大模型，向中国境内的另一作为平台运营方的大模型服务提供者（“B 主体”）提供大模型技术接口并收取技术服务费，接入大模型技术接口的B主体进而面向中国境内的消费者提供大模型应用服务，对此，笔者倾向于认为，A 主体与B 主体均需要履行相关合规义务。