生成式人工智能将引领法律科技成为风口行业

2023-05-30孙婧

检察风云 2023年10期

孙婧

人工智能（Artificial Intelligence，简称AI）技术的发展经历两个阶段：一是AI决策，二是AI生成。ChatGPT（Chat Generative Pre-Trained Transformer，聊天生成式预训练转换器）是由决策式的AI向生成式的AI发展的一个最重要的标志，是生成式人工智能的特定实现和应用。

从2022年11月30日发布上线后，ChatGPT成为了史上最快消费级的应用程序，5天注册用户突破100万，2个月月活用户达到了1亿。ChatGPT的火爆“出圈”标志着人工智能研究开始步入“强人工智能”时代。据英国《每日邮报》2023年1月30日报道，哥伦比亚的一名法官使用ChatGPT做出了法院裁决，这是第一次在人工智能文本生成器的帮助下做出法律决定，由此诞生了“全球首份使用ChatGPT做出的判决书”。

ChatGPT的诞生标志着人工智能的研究正步入“强人工智能”时代

ChatGPT是美国人工智能研究实验室OpenAI推出的一种人工智能技术驱动的自然语言处理工具。ChatGPT核心技术包括具有良好的自然语言生成能力的大模型（GPT-4），以及训练该模型的钥匙——基于人工反馈的强化学习（RLHF）。据推测，GPT-4是基于万亿个单词的语料库，包含千亿个参数。ChatGPT不只是一个聊天机器人，它是具备很多专业工具才有的功能的载体，如生成图片、编写代码、创作诗歌、生成文案等。和专业工具不同，这些功能并不是ChatGPT最初规划的功能，而是经过千亿级别的参数和万亿级别的语料库训练后，发现它具备了一定的创作和理解能力，相应的更专业的功能便陆续地被迭代开发出来。

AI根據自然语言描述设计生成的三张图片

女性机器人形象

什么是“强人工智能”？“强人工智能”是一个“真正能推理和解决问题的智能机器，并且，这样的机器被认为是有知觉的、有自我意识的，可以独立思考问题并制定解决问题的最优方案，有自己的价值观和世界观体系”。而“弱人工智能”，只能在设计的程序范围内决策并采取行动。ChatGPT和之前AI产品最大的区别是，之前的AI都属于某一项技术在某一种需求前提下的应用。比如AlphaGo只能处理围棋的规则，却无法处理象棋、五子棋的规则。这些AI技术不具备由一种技能衍生或者进化生成另外一种技能的能力。ChatGPT设计之初的目的是理解人类复杂的自然语言，功能已经不再受限于单一领域，本质上是通用的大型语言模型（Large Language Models）。它具备什么样的能力，部分取决于模型的训练集。比如ChatGPT偶然把源代码加到了训练数据中，结果发现ChatGPT在生成代码和代码纠错方面的能力得到了巨大的提升。这非常接近于人类的学习过程，学习了什么方面的知识，就具备了什么方面的能力。也就是说，模型不是为特定的需求设计的，而是模型本身具备了通用型的学习能力。

ChatGPT能够感知人类语言复杂的描述，并且捕获其中的涵义；同时具备一定的生成和推理能力。它生成的内容是基于庞大训练数据的一种再加工，它是大数据领域基于概率的一种生成方式。ChatGPT还具备一定的反馈和修复机制，在反馈中对一些知识性的错误进行纠错，已经具备了自动进化的能力。因此，ChatGPT的诞生被认为是人工智能的研究开始步入“强人工智能”时代的标志。

为什么ChatGPT的诞生被认为“不亚于PC或互联网诞生”

ChatGPT横空出世后，它在多个领域、多个场景下展示出的能力，引起了整个世界的关注。AI从业者开始探索它给当前互联网可能带来的改变。比尔·盖茨在接受《福布斯》杂志采访时盛赞道：ChatGPT诞生的意义不亚于PC和互联网诞生。那么，如何合理评估ChatGPT产生的重要性？

众所周知，PC和互联网诞生的最大意义是构建了快速的信息通道，使得人们可以更高效地获取来自世界各个角落的信息。互联网信息的载体是文字、图片和视频等，为了产生好的信息内容，需要人通过专业的训练，需要多种技术栈，才能够掌握某种特定领域的信息生产方式。如从事图片生产的，需要有一定的绘画能力、图片后期处理能力，才能生产出符合产品需求的图片。高价值信息的产生需要付出高昂的代价。互联网打通了人类信息传递的快速通道，却在互联网内部应用之间，竖起了高高的技术围墙，阻断了技术之间的融合发展。

ChatGPT的出现简化了这一过程，因其强大的自然语言理解能力，机器能够快速识别我们的需求，不再需要复杂的命令和操作界面，不再需要硬性地理解有些软件背后的实现逻辑。只需要用正常对话的方式，告诉它我们需要什么，它就能够智能地反馈给我们所需。ChatGPT的出现，更像是构建了一条超级通道，缩短了普通用户和信息载体之间的鸿沟。它最大的意义在于将之前看似复杂的、只有专业人士才能做到的事情，变得如同对话一样简单。ChatGPT被认为是继数据库和搜索引擎之后全新一代的“知识表现和调用方式”。

事实上，国内学界和产业界早已意识到其重要性及商业价值，一直在加强和推进AI大模型的研究及商业化。例如，清华大学计算机系唐杰教授领衔研发的“悟道”1.0和“悟道”2.0大模型，复旦大学邱锡鹏教授于今年2月发布的MOSS大模型，百度在今年3月16日发布的“文心一言”大模型，华为由田奇院士主导研发的盘古大模型等。上述“类ChatGPT”大规模预训练语言模型的特点是充分利用大数据、大模型和大计算。从这三方面看，我国与美国之间的差距没有那么大，尤其是在大数据层面，我们有着先天的优势。我们相信在AI领域，国内在不远的将来有足够的能力实现弯道超车。

“类ChatGPT”大模型在法律行业的多层次应用

“类ChatGPT”最大的突破点在于先解决了信息载体中的文字部分，充分理解了人类的语言。以文字为重要载体的法律行业将会率先直面决策性AI向生成式AI转变的冲击。这里我们把“类ChatGPT”大模型在法律行业的应用分为三个层次，这三个层级并行不悖、相互促进。这里越高的层次意味着越高的技术复杂度。

初级阶段应用：作为搜索工具，提供基本法律法规、案例库的查询

传统的搜索引擎在搜索法律法规的过程中，其检索方式和检索技术仍然是通过“关键词+限定的逻辑检索+限定的查询条件”这种方式。有时候人类的需求无法通过检索表述清楚，这是因为人类语言的描述有时是柔性的或是非量化的。

我们使用ChatGPT对法律法规进行咨询，发现ChatGPT已经可以做到感知语义、梳理使用法律，根据需求“明确说明法律法规的第几条”，并返回详细的结果。但从结果上看，由于ChatGPT关于中文的训练集不够充分，并且还缺乏与中国法律相关的语料特别的标注，目前返回的结果可能不太理想。但相比传统的搜索引擎，“类ChatGPT”大模型能更准确地捕获人类的需求，返回更准确的信息。

需要说明的是，ChatGPT的搜索能力上限远高于传统的搜索引擎，基于ChatGPT的搜索目前还处于初始阶段，国外的微软公司今年2月发布了基于ChatGPT的对话式新搜索引擎NewBing。国内的百度公司今年3月发布的“文心一言”，是全球大厂中第一个做出对标ChatGPT的产品。这种基于大模型的新的搜索技术目前还处于初级阶段。

中级阶段应用：作为数据挖掘工具，提供关联的案例搜寻，智能辅助决策

法律案件办理中，从业律师很重要的一项工作就是和相关的人员进行沟通，梳理案件本身，采集相关的数据、证据。传统的搜索引擎或者案例库不能进行精确的查询，其最大的问题在于传统搜索引擎无法感知复杂的上下文，即无法根据已经存在的法律数据、证据等做下一步的判断。

“类ChatGPT”的出现，使法律业务机器人、搜索引擎、资料的搜集与梳理等功能可以被整合在一起。它可以如同一名专业的律师般同咨询者对话，搜集对话中提到的信息，经过数据挖掘聚类和决策提供有效的案例库；可以帮助律师和法律顾问进行多种模拟分析，例如智能合约实现的风险分析、司法裁判结果分析、各类数据挖掘模型分析等。这些分析有助于制定更安全、更有效的法律策略，进而辅助做智能决策。

高级阶段应用：作为“强人工智能”工具，具有通用智能交互能力，助力司法裁判

高级阶段的“类ChatGPT”作为“超级通道”已经具备了相当复杂的推理能力。“类ChatGPT”能够根据自己掌握的庞大的法律法规及案例库，结合用户的需求、差异化的场景，撰写法律文书、分析不同律法之间的共同点和矛盾点等。针对法律从业者，如法庭的法官，可以借用ChatGPT进行司法的裁判。

鉴于人类习得语言，除了文本，还可以利用听觉、视觉、触觉等多种感官信息同语言进行映射。“强人工智能”未来还需融入更多的多模态信息，比如作为法律证据的视听资料等。据悉，今年3月发布的GPT-4在多模态上已有突破，可以输入图片、文本，但是输出的还只能是文本，尚不能输出图片、视频。

从“强人工智能”所具备的能力上看，ChatGPT现在还处在婴儿期，ChatGPT的能力也在逐步提升，未来还有难以量化的成长空间。我们期待，未来无论是立法、执法、裁决过程都可以无比信赖人工智能的那一天。

法律与科技融合带来的机遇与挑战

目前传统人工智能技术在法律界，可以进行信息回填、智能编目、法条推送、文书纠错等辅助性工作，还可以进行类案推送、证据筛查、风险评估、偏离度预警等核心性工作。随着以ChatGPT为代表的“强人工智能”技术的迅速发展和应用，未来将会对法律行业产生巨大的冲击。一方面，会进一步降低法律从业者和普通人根据实际的需求，获取法律法规并进行案例案件分析的成本；高效与低成本意味着法律行业的准入门槛变得更低，意味着拥有更快、更便捷、更透明的法律咨询和法律文书生成途径。但另一方面，技术的演进也在挤压当前法律从业者的生存空间。之前，只有律师才能进行的某些法律服务很可能被人工智能逐步替代，法律从业者的业务拓展、个人成长的沉没成本、专业护城河的深度都会被重新定义。未来对提供普通法律服务的律师的需求会变得比较少，相对要求也将更为苛刻。未来更需要不但能够驾驭人工智能的能力，还具备从无到有的创造力、总结能力的法律从业者。相应的，法律教育领域更是要改变原来的方式，做“系统升级”。这也将促进人工智能相关法律法规的完善。

虽然ChatGPT在技术层面有着巨大的优势，但我们仍然要面对因其不成熟而产生的弊端，诸如信息不准确。缺乏高质量的专门数据直接制约了以ChatGPT为代表的大型语言模型在中文法律领域的应用。考虑到模型的安全性和隐私性，我们需要思考法律已有的数据资源，通过什么方式与大语言模型对接，是否有必要建设法律行业专用的数据基础设施。在技术实现上，我国法律机构可以和AI从业者合作，依托海量的法律大数据资源，建立本土面向司法语境的大规模语言模型，这里区块链和隐私计算等技术可能是一条出路。

总的来说，ChatGPT作为“强人工智能”开始改变世界的一个标志，虽然还处于发展的初期，却足以惊艳世人。作为法律从业者，一方面我们需要不断地加深对法律法规的理解和驾驭，不要恐慌；另一方面我們需要借助这个工具对法律实践活动进行根本性的提效和赋能，这样才能更好地拉近普通民众与法律之间的距离，让法律的制定、落实变得更加便捷，让所有人在低成本下都能够平等地享有法律带给大家的权利。

（作者系复旦大学计算机软件与理论博士，现任华东政法大学智能科学与信息法学系助理研究员）