数字法学的语言数据基础、方法及其应用

2024-01-12宋丽珏

东方法学 2023年6期

宋丽珏

内容摘要：智能时代催生了数字形态的法学研究范式，以语言为数据基础、统计分析为路径的法律语料库语言学应运而生。美国法学界采用了结构主义视角，将其作为整体性的跨学科领域法学。法律语料库语言学在司法解释领域内得到了极大的发展，应用在大量的案例分析中。欧盟则更多的是采用解构主义视角，运用谱系分析将语料库语言学的语料数据、技术、方法分别应用于领域法学和法学方法论中。回顾美国及欧洲地区有关法律语料库语言学的发展历程，对我国法学未来发展具有方法论意义。通过借鉴域外司法实践及学术研究的成果，能够丰富我国法学及语言学交叉学科的研究方法，为法学理论创新、司法实践的发展提供启示。

关键词：智能时代数字法学语料库语言学解构主义视角法学理论创新方法论意义

中图分类号：DF0055 文献标识码：A 文章编号：1674-4039-（2023）06-0118-129

一、智能时代法律的语义

人工智能技术依托海量数据的自然语言化，通过知识、数据、算法、算力四要素〔1"〕为人类创造了知识生产和运用的母体平台。它“塑造了大平台与微时代、集中化与碎片化、虚拟化与现实化之间复杂交织的新型社会关系，它改变了我们对位置、信任、空间、时间和联系的定义”。〔2"〕智能时代的特征塑造了法学的新发展，比如传统法学的研究和实践主要基于法条解释和案例分析，而随着大数据和人工智能技术的兴起，新的研究方法和工具接连出现，数字法学应运而生。同时，智能时代催生了以ChatGPT为代表的新“类人”工具，其本质是一种“大数据+机器学习+模拟演练+微调变换+加工输出”的人机智能交互应用程序。〔3"〕它强调数据驱动的决策和预测，通过利用大规模的数据集、机器学习算法和自然语言处理技术，加快了法学研究和法律实践的速度和精准度，把法学推向了由归纳演绎到数据分析、由知识理性到计算理性、由人类认知到机器认知的研究新范式。

（一）语言数据

技术革新不仅带来了法学研究在数据和方法上的突破，也带来了新理论和实践交融的机遇和挑战。在法学研究中，关于“数据”的研究正如火如荼地进行着。主要关注以下三个主题：首先，研究数据技术与法学之间的互动关系，探讨数据技术如何影响和改变法律领域。其次，探讨数据技术在法律实践中的应用，研究如何将数据技术与法律实践相结合，提高法律服务的效率和质量。最后，将数据作为法学的研究对象，探讨与数据相关的法律制度与理论，包括数据隐私法、数据保护法、数据治理等方面的研究。这些研究主题旨在深入了解数据对法学的影响，并为发展智能法律技术和数据驱动的法学研究提供理论和实践支持。〔4"〕法律语料库语言学（Law"and"Corpus"Linguistics）是隶属于法学和语言学下的一个崭新的交叉学科方向，其主要研究方法是基于大型数据库及多种语料库分析工具，以法律文本（如法律、法规、合同）为依托，结合法律解释学及语料库语言学相关理论，进行文义分析。具言之，法律语料库语言学是利用大规模文本集合，通过观察检索行（concordance）、搭配信息（collocation）并结合统计数据进行语义分析。其独具的实证性、统计性、多样性和代表性，既可以训练人工智能模型以提高语言理解能力，亦可单纯为人工智能提供必要的数据基础。通过海量数据计算训练和优化模型，促进智慧司法系统更准确、智能地分析问题并制定决策。可以认为，法律语料库语言学是将语料库语言工具、理论和方法应用于法律问题（尤其是法律解释问题）的交叉学科方向。

目前，美国及欧盟均在积极开发法律专门领域语料库（数据库），〔5"〕除Westlaw、LexisNexis（以下简称Lexis）等专门法律语料库外，可用于法律用途且全球开放登录的主流语料库共计42个，其中英语单语18个，欧盟多语13个，其他语种7个。〔6"〕随之而来，语言学分析的视角和方法也愈发受到法学界和实务界的重视。在美国和欧盟的司法实践和法律解释研究领域，语料库语言学已经得到广泛应用。〔7"〕此外，杨百翰大学法学院连续8年举办的“法律与语料库语言学”年会、国际法律语言学学会（IAFL）〔8"〕连续16年举办的“法律与语言”年会，均进一步凸显了美国及欧洲国家在积极探索和发展语料库语言学于法律领域的应用，逐渐形成了一套独特的研究方法和理论体系。它充分利用了大数据和最新的技术手段，为法学研究和实践提供了更深入、更全面的语言分析和语义解释。

（二）平义原则

法律不是“命令”的集合，而是文本的集合。〔9"〕法律概念的诠释、法律文本与现实生活的映射、法律人对法律文本的应用等，都离不开文本语义的分析。〔10"〕所谓“平义”，指的是制定法律文本的明确含义，是指语词惯常或通常的含义，亦是语言共同体所普遍接纳的意旨。“平义解释”就是用语词惯常或通常的含义来解释。按照英美法系的观点，平义是普通人士在日常生活中一般性使用的语词之含义。也就是字义（literal"meaning）规则，或曰语法（grammatical"meaning）规则，即法律文本所使用的字、词、句的意义是普通人通常理解、共同接受的含义。比如在Piere"v."Underwood案中，根据平等审判法（EAJA），若原告对美国政府提起诉讼并胜诉，其律师费应得到补偿，除非法院发现美国政府的立场被证明是充分正当的（substantially"justified）。案件的争议点在于何为“充分正当的”，第九巡回法庭对其的解释为“政府的立场有法律和事实上合理的基础”。而被告则认为“合理的”并不能代表“充分正当的”的立法原意。联邦最高法院基于“充分正当的”通常含义，最终采纳了第九巡回法庭作出的解释。〔11"〕这里值得关注的是，对于普通含义英美法系法官及学者倾向于认为：“制定法的词汇、短语和句子应以其自然的、一般性的、通用的、合乎语法的意义被普通人所理解”。换言之，平义规则注重语言以及语言学分析，强调语法规则和词典定义，甚至认定法律条文应在固定文类、语境下无歧义、无争议。美国自1987年以来，司法活动对于字典的依赖急剧增强，有多达三分之一的司法判决引用了字典定义。〔12"〕但无歧义且无争议仍很难做到。自斯卡利亚大法官开始，逐渐提出了一系列确定语言通常含义的方法。比如，首先考察法律中出現的词语或短语在其他法律中的意义；其次，考虑该用语和整个法律相符合的可能含义。〔13"〕最后，考虑其他相关法律来确定法律的通常含义（平义）。立法者制定法律的意图是让普通人懂得其含义，遵守其规则。在我国，起草法律时所使用的字、词、句亦均与通常使用的语言规则相符，如法律规定将法庭的活动情形“写入笔录”，应当理解为以笔记的形式记录在纸张或其他载体上，而不应当将“写”的字面含义简单地理解为手持钢笔，逐字记录；应当将“笔录”理解为用于以后入卷查阅的载体，而不是任何普通笔记本。因此，通常含义既不简单地等同于直接的字面含义，又不是脱离其在具体背景之下的特定含义。它必须是人们共同普遍接受的含义。〔14"〕在司法实践中，法院不但需要确认涉及法律纠纷和法律文本中特定术语的法律含义，而且往往不得不定义诸如“使用”〔15"〕“番茄”〔16"〕“年龄”〔17"〕“车辆”〔18"〕等普通词汇的具体含义。此时，单凭法官或其他司法人员的经验已经不能十分准确地判断语义，需要借助新的技术手段，以及来自语料库的数据证据才可以做到。

二、法律语料库语言学的域外实践

法律语料库语言学是法学与语料库的深度融合，它通过对大量法律文本进行结构化处理并进行统计分析。在其域外实践中，我们借鉴了美国和欧洲地区的经验，探索不同地区法律语料库的建设、应用和研究。通过展示法律语料库语言学在美国和欧洲地区的实践中取得的成果，能够更好地理解和应对跨文化跨法域交流中的语言障碍，从而为智能时代的涉外法治实践提供更可靠和准确的支持。美国和欧盟的司法实践经验亦为我们提供了宝贵的参考。

（一）美国实践：法律解释中的语料库语言学

将语料库语言学的工具和方法应用于法律问题或法律解释，这一想法可以追溯到2010年秋季，斯蒂芬·穆里森（Stephen"Mouritsen）在《杨百翰大学法律评论》（BYU"Law"Review）发表了一篇题为《词典并非堡垒：定义的缺陷与一种基于语料库的平义解释方法》的文章。文中指出使用传统的词典定义进行法律解释时的缺陷，并提出了一种基于语料库的平义解释方法。穆里森认为，传统的词典定义通常只提供了一个抽象的、固定的含义，无法涵盖语词在不同语境下的变化。然而，法律中的词语常常需要根据具体案例和背景进行解释。为了弥补这一缺陷，他提出利用语料库中的真实语言数据作为基础，通过分析大量的实际使用情况来确定词语的具体含义。这种基于语料库的平义方法使法律從业人员能够更准确地理解和解释法律条文中的词语。通过分析大量的法律文本和相关语料库数据，可以确定词语在特定领域、文体和语境中的典型用法，并根据实际情况进行解释。〔19#〕亚当·利普塔克（Adam#Liptak）随后在《纽约时报》上发表关于法律解释的文章中引用了该观点，〔20#〕使得这种基于大数据的语义分析方法在法律解释中的运用得到了极大的关注。

2011年，法律语料库语言学得到了更加纵深的发展机会。在美国Adoption#of#Baby#E.Z.案的判决中，大法官托马斯·李（Thomas;Rex;Lee）的判决意见为多数支持意见提出了另一种“证据”佐证，通过使用语料库语言学来解释“监护权的决定”的含义。这也是美国历史上第一个利用语料库语言学来确定法律文本含义的判决。托马斯大法官通过检索当代美国英语语料库（COCA）〔21;〕的500个随机样本（检索行），发现“监护”常出现在“离婚”（divorce）语境下，而并非“收养”（adoption）语境下。研究同时发现，“监护”与“离婚”同时发生（或称搭配）的可能性是“收养”的十倍。托马斯大法官从检索证据中得出结论，“该法所涵盖的监护权诉讼，仅限于可更改的（有条件的）离婚监护令”，而不是更广泛的监护程序。

自此，其他相关的司法实践和法学研究随之发展起来。在2015年的State;v.;Rasabout案中，托马斯大法官使用COCA检索来确定与枪支（或其同义词）一起使用时的“发射”（shoot）绝大多数是指单次射击，而不是指清空整个弹匣。〔22;〕2016年，五位大法官中有四位在托马斯大法官的多数意见中加了一个脚注，赞扬了他在案件审理中使用语料库语言学方法（尽管他们同时认为，没有必要用这么复杂的方法去解决相关问题）。〔23;〕基于此，密歇根州最高法院成为第一个在多数意见中使用COCA作为论证来源的法院，此后案件中涉及语义确定的部分逐渐出现了语料库转向，在多数意见或少数意见中均有可能转向COCA或其他语料库来确定词汇或短语的含义。

比如，在Muscarello;v.;United;States案中，布雷耶大法官（Stephen;Breyer）通过搜索Lexis和Westlaw库中报纸部分，分析了武器（weapon）、交通工具（vehicle）和携带（carry）的实用语义，并进一步确定了此案被告人在毒品交易过程中车内携带枪支属于“携带枪支”（carry;a;weapon），从而违反了联邦法律规定的，在毒品交易途中携带枪支属于犯罪。〔24#〕而被告则强调根据COCA语料库检索“携带”一词，在日常使用中主语一般为“生命体，人”而非“物体”。在United#States#v.#Costello案中，美国联邦第七上诉法院法官波斯纳批评了过分依赖词典的弊端，并应用谷歌新闻（Google#News）确定案中被告并未“包庇”（harbor）贩卖毒品的外国男友。根据美国法典（United# States#Code）第8篇第1324章第（a）（1）（A）（iii）条，任何人“如果明知或无视外国人非法入境美国或非法居留美国，却将此外国人窝藏、包庇或庇护（或企图窝藏、包庇或庇护）于任何地方，包括任何建筑物或交通工具之中”，将处以5年以下监禁，并处25万美元以下罚款。

此案中的被告被指控触犯美国法典第8篇第1324章第（a）（1）（A）（iii）条中的“窝藏”（conceal）、“包庇”（harbor）和“庇护”（shield#from#detection）罪，数罪并罚。联邦地区法院法官认为，被告明知男子是非法入境者，且曾驱车前往车站将男子接到自己的住所，有窝藏罪犯的企图，故判缓刑2年并罚款200美元。随后，被告提出上诉，此案提交至美国联邦第七上诉法院。而波斯纳法官认为，“窝藏”指将犯人隐藏起来不让外人发现，而“庇护”指隔离起来以防警方发现。从案件的基本事实看，没有证据能够证明被告犯有“窝藏”或“庇护”罪。因此，该案的关键是看被告是否犯有“包庇”罪，而这正取决于harbor一词的常用意义。

波斯纳强烈反对通过词典来确定词汇的意义。他指出，“词典中的定义是脱离语境的，而句子的真正意义取决于语境，包括对语言产生背景的理解”。为了搞清harbor一词的意义，波斯纳使用了一种特殊的语料库———网络。随着互联网的不断普及和互联网数据的迅速递增，互联网上的文本数据已经成为世界上最大的语料库，从互联网上挖掘数据的方法也越来越多。西方有学者专门研究作为语料库的网络（Web（as（corpus）。波斯纳使用网络的方法十分简单：他在谷歌中搜索harbor的搭配词，发现harbor之后最常见的搭配词包括fugitives（亡命者，50800次）、refugees（难民，4820次）、enemies（敌人，4730次）等。这些数据清楚地表明，harbor的意思不是“为……提供住所”（这是词典中给的解释），而是“通过窝藏、转移到安全地点或提供人身保护等途径，有意识地保护某特定群体成员的安全，使其免受当局的伤害”。在波斯纳看来，本案中的被告只是想独自拥有男友，无意与当局为敌。在审理此案的过程中，波斯纳不依赖传统的词典，而利用互联网上的大众语言作为证据，来解决法律文本中的“平义”问题，独具匠心。〔25>〕

同时，在2016年的People>v.（Harris案中，密歇根州最高法院同样依据COCA的分析，确认了具有歧义的成文法内容，七位大法官均认同语料库语言学可作为成文法文义解释的有利佐证。该案牵涉一名司机和三名警员，其中一名警员袭击了该名司机，而同行的其他两名警员则全程旁观并未采取任何行动。整个过程无意间被录像机记录。事后三名警员作出了与录像中情形不符的虚假陈述（false>statement），法庭随即就此对三名警员提起刑事指控，罪名是“攻击和殴打”（assult>and>battery），包括普通法上重罪的渎职行为和妨碍司法。根据密歇根州立法执法人员信息披露法（DLEOA），其严禁使用执法人员所作的非自愿陈述（involuntary>statement）以及从该非自愿陈述中得出的任何信息（information），在任何刑事诉讼中用来指控该执法人员。该案的争议点在于，根据DLEOA，纪律处分诉讼被告的执法人员（也就是三名警员）给出的“信息”的确切语义。是否同时包括真实信息（accurate（information）和虚假信息（falseOinformation）。判决中的多数意见参考了COCA的检索行（concordances），发现信息这一词汇应既包含真实信息和也包含虚假信息。该案的主审法官马克曼大法官（Stephen（Markman）观察到，鲜少有类似准确、无误或此类的形容词出现在“信息”前面用以说明信息是否真实。换言之，当信息前并未搭配修饰语时，一般均表示是“真实信息”。他据此认定，由于执法人员传递了不实信息，的确妨碍了司法公正。〔26（〕

另一个经典案例是Kouichi（Taniguchi（v.（Kan（Pacific（Saipan，>Ltd.，此案中原告是一名日本棒球运动员，由于在被告的度假村受伤，他无法履行合同，因此损失了收入。故此，原告起诉要求被告赔偿医疗费用和因在被告的度假村受伤而无法履行合同的收入损失。此案争议点在于，被告（度假村）“花钱将各种文件从日文翻译成英文”，而当地区法院以简易判决（summary>judgement）的方式驳回此案件时，被告提交了一份要求赔偿其支付的文件翻译费用的请求。与Muscarello>v.>United>States案相同，此案同样涉及原义解释问题。被告的索赔基于一项联邦立法，该法允许联邦诉讼中的胜诉方收回某些费用，包括“interpreter”（译员）所产生的费用。依据词典释义，阿利托大法官（Samuel>A.>Alito，>Jr.）在撰写多数意见时提出，口译员（interpreter）与笔译员（translator）意涵并无差异，均可指文件翻译工作者。在反对意见中，金斯伯格大法官（Ruth>Bader>Ginsburg）则认为在日常使用中，interpreter主要承担口头发言的翻译工作，偶尔负责文本翻译。而这样的争论，在语料库语言学领域可以得到更加确定的语义判定。

通过在COCA中检索interpreter的共现信息，其经常与translator形成二项式搭配（interpreter> and>translator），〔27>〕不难看出两者之间存在语义差异且常作为搭配项出现。如translator在更多情况下指“笔译员”，而interpreter则主要是指“口译员”。这恰印证了“要想准确理解、把握和灵活使用包括法律语词在内的任何语言，都不能仅仅仔细研读某个语词，试图从语词本身或其定义中发现其含义，而必须在不同語词使用的具体语境中察觉其含义”。〔28#〕语料库作为人工智能时代的话语分析工具恰恰可以在超越词典更大的语境中确定话语含义，提高语义辨析的精度和效度。

基于以上案例我们可以得出结论：法官所作的“一致的、普遍意义上的”文义解释，在很大程度上是“不确定、有分歧”的意义分析。在一些案例中（如Muscarello#v.#United#States），法官接受了与普遍意义不一致的特例，在其他案例中（如Kouichi#Taniguchi# v.#Kan#Pacific# Saipan，#Ltd. 和United# States# v.#Costello），普遍意义则作为直接影响判决结果的主要因素，不仅仅是法律解释的问题，也是法治（rule#of#law）本身面临的问题。只不过这样的问题在人工智能日益发达的今天，有望得到更良好的解决。

（二）欧洲实践：概念自治与设定解释边界

与美国不同，欧洲地区的国家虽基本同属大陆法系，但区域内多语特征明显。从欧盟法的角度来看，概念自治是欧盟法律统一适用的先决条件。无论成员国一级的国家法律差异如何，整个欧盟都是以统一的方式适用概念。〔29#〕欧盟通过对“超国家”层面的概念进行解释，便赋予欧盟法上的概念产生自主权或欧盟特定的含义。这种语义独立性的存在保证了欧盟概念不会在国家法律意义上被解释和应用，从而解决了欧盟超国家法律秩序与国家立法之间的冲突。〔30#〕与此同时，尽管成员国之间存在国家法律差异，但整个联盟以统一的方式适用这些概念。因此，概念的独立性不依赖于成员国法律的解释，而是在欧洲法院的指导下被概念化和解释。换句话说，无论这些概念在德国或意大利法律中如何被解释，都与欧洲法院认定的意义无关。此外，这些概念的含义是流动并模糊的，受到新判例法的影响而变化。尽管如此，欧盟立法者有时并没有提供对这些概念的明确定义。以往的判例表明，像承诺、使用补偿、罚款等概念缺乏清晰的法律确定性。欧洲法院在确定概念的自主含义时，更多的是需要遵守法院的目的论方法和自主解释，〔31#〕而并非某一国家（语种）的概念定义，语料库语言学则能够在这样的语义确定过程中发挥重要作用。比如，在“汽车工业协会”案中，〔32#〕欧洲法院必须确定“工会”一词的含义。〔33#〕通过检索欧盟法律语料库（ERO-Lex），〔34#〕可以得到欧盟24种语言版本的检索结果，通过直观的对比后发现，法语中“工会”（syndicat）含义更广泛，涵盖职业联合会，但英文版本仅指工人联合会。按照欧盟法规定，多语言下的法律概念具有同等效力，在解释法律时需要比较不同的语言版本。〔35#〕此时，（单语及多语）语料库便可为这样的司法实践或比较法研究提供便利。欧洲免费开放的常用法律语料库包括：

1.剑桥法律英语语料库（Cambridge#Corpus#of#Legal#English），语种为英文，库容2000万字符，数据来源为书籍、报刊中涵盖法律或立法过程的内容，时间自1993年至今，应用在学术研究及司法领域。

2.上议院判决语料库（House#of#Lords#Judgments#of#Corpus），语种为英文，库容约为287万字符，数据包括188份判决书，时间自2001至2003年，可应用在通过判决书的话语特征（如修辞手法等），从而自动生成案例摘要。

3.伦敦中央刑事法庭庭审记录语料库（The#Proceedings#of#the#Old#Bailey），语种为英文，库容1227万字符，数据包括197745份刑事审判庭审记录，时间跨度自1674年至1913年，可开放查询，部分语料可下载。

4.欧盟法律语料库（ERO-Lex），语种包含24种欧盟语言，数据来源包括219657件立法、案例等，时间跨度自1990年至今，可供比较法领域研究，并允许下载全文本用于数据训练。

5.刑诉语料库（JUD-GENTT），语种包括英语、西班牙语、德语、法语，数据来源包括英国、西班牙、德国、法国刑诉过程中的各类文本材料，可供法律话语、法律翻译、比较法相关领域研究。内部使用，需提前申请账号。

6.CAL2欧洲法律语料库（CAL29Corpus9of9European9Law），语种为英语、德语，库容10亿字符，数据来源包括德国法相关文本，时间跨度为1980年至今，可供法律话语、法律翻译、比较法相关领域研究。开放会员申请，语料可供查询，部分可下载。

7.IULA语料库庞培法布拉大学应用语言研究所（Institut9Universitari9de9Lingüística9Aplicada，Universitat9Pompeu9Fabra），语种包括英语、法语、德语、西班牙语，库容426万字符，数据来源包括立法文本、专业司法文书、法律实践文本（指南、说明等）、词典等，时间跨度自1993年至今，属于标注语料库（可提供统计数据，如最大对数似然值、互信息值、T检验或词频等生数据）可应用于各个具体领域法或比较法研究。

8.博诺尼亚法律语料库（The9Bolonia9Corpus），〔369〕语种涵盖英语、意大利语，库容38.3万字符，数据来源包括法令、判决书等，时间跨度自1968自1995年。创建之初是为了进行比较法研究（普通法系与大陆法系间）和法律语言的相关研究，目前仍可以应用在这些领域。

9.欧盟联合法律语料库（JRC-Acquis），22种欧洲语言，库容6000万字符，数据来源为欧盟立法文本，时间跨度自1950年至今。该语料库的结构化数据可作为多语训练和测试信息，并应用于命名实体识别、情感分析、多文档摘要、语义角色标注、词性标注、词义消歧等任务中。

可以发现，欧洲国家建设法律（多语）语料库的历史更为悠久，数据种类更为多样化，这与其地理、政治、社会发展均有关系。欧盟内部成员国众多，其国家间条约语言地位是否平等，直接影响到国与国之间的关系。维也纳条约法公约第33条第3款规定了“多语种条约的条款被假定为在每个真实文本中具有相同含义”。同样，欧洲法院的判例法也证实，欧盟的二级法律文书的每一个同等真实的语言版本都被认为具有相同的含义。但如果真实文本措辞含混，那么平等意义的推定便不能成立，从而导致人们对不同版本法律概念的怀疑。〔379〕为了避免过于依赖一种语言版本而引起新的问题，欧洲法院除了对法律概念进行文义解释之外，还采用了语境、目的论和历史分析的方法。〔389〕法律语料库的建设和使用，恰可以满足这些实际需求。尤其在进行多语司法推理时，欧洲法院不可避免地需要对欧盟法律规定的解释进行多语种版本比较，但同样的概念在欧盟法律和各成员国的法律中未必具有相同含义。这就要求欧洲法院需要在考虑每一种语言的概念体系后，给予统一解释。其中，语言、知识和语境是判定文义最为重要的三要素。

圖1为欧盟法律语料库检索界面，以案例“Case9489/01”为关键词进行检索，得到23种欧盟语种的案例详情，提供了全文本（pdf及html）浏览及下载。可见，欧盟建设的多种法律语料库收集了大量来自不同语言和法律体系的文本样本，并通过系统性的整理和标注，形成了一个涵盖多种语言和法律领域的数据资源库。这为欧洲法院提供了丰富的语言素材，以支持案件处理过程中的文义解释工作。无论是解释法律文本中的特定术语，还是理解不同法律体系之间的差异，这些语料库都能提供有力的证据支持和参考。

三、法律语料库语言学对法学研究的方法论意义

通过美国及欧洲地区法律语料库建设、应用及司法实践的回顾，可以发现语料库语言学作为确定意义的测量工具自身就达成了某种方法论上的意义，利用语料库的数据作为统计样本，通过对语言现象的测量和分析来揭示语言规律。在此过程中，研究者通常会先基于具体的语言学理论确定规则，从而进行文本标注（annotation）。比如，将文本中特定词汇的频率、使用范围、共现情况等作为测量指标，利用标注后的语料数据进行统计，并分析这些词汇的语言特征和语义内涵。这种对于语言现象进行量化分析，通过对数据化描述和数值化的比较，推导出某种结论或得出某种发现是语料库语言学研究的主要范式。

（一）理论应用的范式、方法及特色

法律语料库语言学成为实践法律解释的方法论时，适用不同“语境”并采用不同的理论偏好。目前其研究主要集中在两个理论领域，即法律解释中的语词歧义辨析和范畴确定两大领域。可以明确的是，方法论实践是理论应用于实际的过程。

其一，在法律解释领域采用较多的研究方法是基于语料库的词典学研究范式。它的设计理念是通过整合大量的语言材料，通过分析统计词语在不同语境下出现的频率、搭配和含义等信息，来了解词语的用法和含义。通过这种方式，词典提供的不再是一组固定的定义，而是可以根据实际语境进行灵活调整的意义。这种研究范式被广泛运用在语义消歧过程中（前文所述的诸多案例均与此相关），是将词汇语法型式（lexicogrammatical+pattern）视为语义单位，而非单一的语词，这超越了传统词典的局限。根据Goldfarb（2017a），“只有在某个特定的语境中，词语才具有确切的意义，孤立的语词只具有意义潜势（meaning+potential）”。〔39+〕这种研究方法尤为重视由动词搭配名词产生的语义单位（unit+of+meaning），比如在美国宪法第二修正案中的arms一词，只是具有“武器”这样的潜在意义，当且仅当在“bear+arms”“carry...arms”，以及“use...arms”形成具体搭配时才具有实际语义。这也恰能够说明法律文本的解释在很大程度上，必须结合个案分析。同时，这种研究方法对语词的历史语义（变迁）确定具有重要意义，比如美国宪法中的DomesticPViolence，根据COFEAP〔40P〕数据考察能够发现其原初意义为“国内暴动”，〔41P〕并非当代英语中所指的“家庭暴力”。

其二，基于语料库的认知范畴理论可以更为有效地解决法律解释中的分类问题，即在案件中引起争议的事物是否同质于相关法律文本中指定的类别，如果考虑制定一项法规来区分蔬菜和水果的关税，番茄应该被植物学家定义为水果吗？〔42P〕恰如在NixPv.PHedden（1896）案中，争论番茄是否应归类为蔬菜（vegetable）；在McBoyleP v.PUnitedP States（1931）案中，争论飞机是否可被视为交通工具（vehicle），或是讨论在美国法典第18编924节（18PU.S.C.§ 924）中，鱼类是否属于有形物品（tangiblePobject）等问题。基于认知范畴理论，人们可以根据现有类别进行概括，因此即使新发现的物品在某些方面不同于已知的典型物品，人们仍可将其归为该类别。这表明了人类思维和分类的灵活性。这种开放性便意味着，人们可以根据实际需要调整和重新定义类别，反映了人类在特定文化和历史背景下对世界的不同观察、认知和解释。〔43P〕显而易见，范畴认识（分类）并不总是一个固定且客观的过程。相反，分类往往是依赖于特定文化和历史背景，并可能包含大量主观元素。在这种情况下，语料库语言学可以提供一个强大的工具来分析大规模的真实语言使用情况。通过分析语料库中的大量文本，可以识别出常见的语言模式及特定语词在语境中的使用情况。如在前文所述案例中，根据语料库检索和语境分析可以得出番茄隶属蔬菜范畴（vegetable），〔44P〕飞机不属于交通工具（vehicle），〔45P〕有形物品（tangiblePobject）大概率不包括生命体在内，也就是说鱼类自然被排除在外。〔46P〕

可以肯定的是，在美国及欧洲地区的司法实践中，语料库的应用主要是围绕数据技术应用于法律实践的解释，属于数字技术对于法治的赋能作用。其采用的路径是通过平台调用语料库预制数据，基于语料库软件或其他统计工具进行数据分析，用以确定具体法律术语或一般词汇的语义（包括运用历时语料库，确定历史语义）。同时，在学术研究中有系列作品关注了语料库语言学与法学的关系，并试图探讨构建跨学科的领域法学。〔47P〕可以说，自2010年开始，在美国及欧洲地区的司法实践及法律解释理论领域出现了语料库语言学转向，伴随着人工智能技术的不断迭代更新，法律语料库语言学在法学与语言学的“碰撞”中，俨然成为最具交叉学科优势的新方向。通过语料库语言学的应用，研究者可以更好地理解法律文本的语言现象、法律术语的使用规律以及法律逻辑的推理过程，从而为法律实践和决策提供更可靠的依据。这种尝试出现在了欧洲地区司法实践，值得关注的是这种先进的语料庫语言学方法在法律领域的应用趋势，对于我国司法解释的理论发展和应用提供了宝贵的借鉴价值。

（二）通过对比分析借鉴发展

语料库中大量文本数据的集合既为大数据分析提供了丰富的资源，又可以用来训练人工智能模型以提升语言理解能力。大数据为人工智能提供了基础，通过使用海量数据进行模型的训练和优化，可以实现更加准确和智能的分析和决策能力。以中英文“语料库”作为关键词分别在Lexis、ERO-Lex语料库及北大法宝中进行检索可以得到下表的基本数据分布：

但研究个案不难发现，语料库在中美法学领域的应用存在较大差异。语料库具有的天然属性，实证性（大数据）、统计性（自然语言处理）、可重复性（数据平台）决定了法学与语料库语言学之间存在辩证的逻辑关系，主要集中在三类研究中：其一，探讨构建跨学科的领域法学，如数据法学、智能法学。此时，语料库作为数据技术科学的分支，可以为相关领域法学研究提供基础数据和技术支持；其二，结合语料库语言学与法律实践结合，明确语料库数字技术对于法治的赋能作用，如法律解释、文义解释；其三，将语料库作为法学的研究对象，探讨有关数据、技术、人工智能的法律制度与理论。〔487〕

根据表1数据，在Lexis检索的美国64条案例和8条制定法中，以及ERO-Lex检索结果中的19条案例和32条成文法（含过程文件），语料库语言学均作为方法论〔49*〕用以进行司法解释、文义解释，牵涉美国联邦最高法院、州最高法院、巡回法院、州法院各个管辖权层级，以及欧洲法院。在二次资源分类下的论文或著作中，Lexis检索得到的332篇作品是将语料库（或语料库语言学）视作方法论，用以分析语词或篇章内在逻辑，并同时探讨了有关法学与语料库语言学交叉学科方向的路径和方法。此外，另有37篇作品将语料库等同于数据库（database），将其视为法学研究或法律规制的对象，探讨了有关数据（库）权、数据处理或数据安全等法律问题。在ERO-Lex库未收录二次资源信息，这与欧盟语料库的开发效率较低有关。

对比北大法宝的检索结果，在我国有关语料库（语言学）的应用单一、稀缺，如在类案检索的24条案例中，仅有一例中使用语料库检索作为证据进行了文义解释。〔507〕在其余23条案例中，语料库（语言学）仅作为案情描述中的背景内容，即非方法论，亦非研究对象。成文法分类下的检索结果集中在教育部、国家语委等制定的有关语言政策的部门规定中，内容涉及语料采集标准、规范等，同质性强且重复引用较多。在以语料库作为关键词得到的二次资源中，绝大多数论文或著作将语料库作为人工智能的数据来源进行讨论，主题涉及ChatGPT的法律规制、算法垄断、算法歧视、风险治理、知识产权保护等，仅有15篇论文将语料库语言学的理论、分析方法应用在立法语言规范化及文义解释领域。〔515〕

通过对比分析可以看到，美国法学界从结构主义视角出发，将语料库语言学视作一个整体的学科方向纳入法学之中。这样一来，语料库语言学的理论与方法论被视作美国法学的一个分支，尤其在司法解释领域内得到极大的应用及发展，辩证地为美国法学界带来了新的视角和工具，促进了法学领域的理论创新和实践发展。在欧洲地区及我国，法学更多的是从解构主义视角出发，运用法律谱系的分析方法，将语料库语言学的语料（数据）、技术、方法分别应用于领域法学和法学方法论中。毫无疑问，语言是法律载体，法律语言与法律文化有密切相关。雅各布森（Jackobson）就曾将法律描述为：“一种双重符号系统，由表达它的语言和该语言表达的话语系统组成。”有效地分析法律语言，规范地使用法律语言或客观地规范法律语言，都是法学内部必须正视的问题。有鉴于此，语料库语言学基于大规模语言数据的研究方法，通过构建和分析语言数据集合，可以深入研究语言的实际使用情况，对法学研究和法律实践提供有价值的信息和语言证据。

首先，语料库语言学可以通过分析法律语言的语境使用，明确法律语言的实际使用情况。通过构建包括法律文本在内的法律语料库，研究者和使用者可以收集到大量的实际语言数据，如法律文件、司法判决、律师函、合同等。可以利用这些语料库数据来分析法律语言的频率、用法、变异等。这有助于揭示法律语言的实际应用情况，从而更加准确地理解法律文本的含义和应用。

其次，语料库语言学可以助力研究法律语言的变异和发展。通过构建专门的法律语料库，研究者可以研究具体的法律用语，比如法律术语的使用频率、上下文语境、搭配和共现等，进一步了解其使用规律和语言变化趋势。这有助于准确理解法律语言的含义和用法，规范法律术语的使用，并在翻译和法律解释中提供有效的参考。

最后，语料库语言学可以帮助分析法律文本中的逻辑和推理关系。通过构建语法和语义标注的法律语料库，研究者可以揭示法律条款之间的逻辑关系、前提与结论之间的推理关系，以及不同法律、法规之间的衔接和相互关系。这有助于深入理解法律文本的逻辑结构和法律推理的基础，为法律解释和争议处理提供支持。

结论

基于前文所述，无论是美国的宪法解释、司法解释，欧洲地区的概念自治，抑或是我国法律中的文义解释，均包含对语义的确认过程。因此，理解和解释文本的文义是决定司法解释的重要基础。回顾美国及欧洲地区有关法律语料库语言学的发展历程，对于研究我国法律的未来发展具有启发意义。

首先，可以借鉴域外法律语料库语言学的发展经验，以提升自身的法律研究和应用能力。美国的法律语料库语言学为法律研究者和从业人员提供了丰富而便捷的法律文本资源，有助于深入分析和理解法律文本。欧洲地区地区丰富的多语种法律语料库，不仅可以助力比较法研究还可为智慧司法提供数据支持。我国可以通过构建自己的（单语/多语种）法律语料库，并应用相关的语言学技术，来加强对法律文本的研究和分析，从而促进法律方法、法律解释学、比较法研究以及法律语言规划领域的发展。

其次，可以在已有的大规模的法律语料库基础上，进一步进行整理并开展相关的语言学标注，构建高质量的结构化语料资源。同时，应用自然语言处理和机器学习等技术，对语料库进行深入挖掘和分析，提取出相关领域的法律知识和规律。这有助于法律研究者为法律实践提供更准确、全面的法律解释和预测，助力智慧司法审判。

再次，发展法律语料库语言学学科方向，开拓智能法学的跨学科路径。法学与语言学有着天然的联系，语词是法律借以发挥作用的媒介，解释法律便是从解释法律规定的语词开始。伴随着语料库语言学方向的不断发展、延拓，它可以更好地应用于法律解释的相关领域，丰富法学研究方法，为其提供跨学科理论及数据支持。

最后，进一步规范语料库使用，明确其法律内涵。在数据决策分析深刻革新人类生活方式和思维观念高度智能化的时代，新兴概念层出不穷，数字、数据、信息、大数據、数据库、语料库等诸多名词并存。为了确保数据决策分析的准确性和合法性，需要进一步规范语料库的使用。语料库应指代以法律文本为主的数据库，其数据质量和准确性也应受到重视，应建立监督和评估机制以确保合规性。

与此同时，我们也必须看到，语料库语言学作为方法论在法学中得以应用是近十几年才发生的事情，其核心在于把语料库语言学视为法学的一种拓展方法、革新策略和优化路径。为现代法学提供一种新思维、新策略和新方法，其对于法律解释中的语义消歧，历史语义变迁及语义挖掘等领域均可以发挥重要作用，这也促进了法学与语言学交叉学科的深度融合。同时，语料库语言学在中国法学领域的应用前景十分广阔。通过运用语料库语言学的方法，能够更加准确客观地处理和分析法律文本，为法学理论研究和实践工作提供有力支撑，也能够帮助律师和法官更好地理解和解释法律语言，为司法决策提供科学依据。