APP下载

法律术语特征研究

2011-01-04那日松

中国科技术语 2011年4期
关键词:词法词组术语

那日松 刘 青 朱 磊

(杭州师范大学,浙江杭州 310036)

法律术语特征研究

那日松 刘 青 朱 磊

(杭州师范大学,浙江杭州 310036)

阐述了以三种方式快速获取候选法律术语集,并对该候选法律术语集进行人工术语标注来构造法律术语库的过程。再通过研究法律术语库,最终获得了法律术语的长度和一系列构词法特征。

法律术语,术语长度,术语词法特征

前言

术语抽取研究不是脱离语言而独立进行的,在法律术语抽取研究中需要语言学知识,可以借助构造法律术语知识库来辅助术语抽取[1]。通过快速建立法律术语库来挖掘法律术语的长度和一系列法律术语结构词法特征。

该研究的语料来源于香港双语法律信息系统(Bilingual Legal Information System,BLIS),选择其中50 500个文件作为实验语料。

一 快速构造法律术语库

研究中以三种方式获取候选法律术语集,通过对候选法律术语集进行标注来构造法律术语库,共获得8828个法律术语。

1.法律术语标注标准

法律术语标注的主要标准是判断词或词组是否具有明确的科学概念,如果概念不清楚,则不作为术语。

法律术语标注过程的判断依据有:

(1)以法律术语部件作为过滤[2],比如:条、法、讼、例、约、罪、押、案、律、判、罚、诉、刑、审、证。

(2)过滤最不可能的词尾,比如:的、在等等(虽然也存在特例,但是大部分不能作为术语的词尾)。

(3)参照“百度知道”的解释及其与法律领域的相关性。

2.候选法律术语集

(1)通过标注《汉英法律词汇》的词条来获取法律术语

本研究选择BLIS提供的《汉英法律词汇》作为研究对象,该书由香港律政司法律草拟科于1999年12月出版,当中收载约11 500个词条,主要取材于1998年9月出版的《英汉法律词汇》(第三版)。

经过再次整理,共获得8129个词条,在不考虑词性和不同含义的情况下,去掉重复项后得到7201个词形。

通过对该7201条法律词汇进行法律术语标注后,共获得4800个法律术语。

(2)通过提取和标注法律条文的标题来获取法律术语

项目组对五万多个文件进行标题抽取后,共获得2151个标题,再经过标注后有2083个为法律术语。

(3)通过提取和标注词/词组单元来获取法律术语

为了快速建立法律术语库,节省在语料中抽取符合条件的词/词组的时间,项目组限定提取目标为加书名号和双引号的字符串。通过该步骤,得到如下结果:加书名号的字符串共2952个,其中筛选出法律术语2803个;加双引号的字符串共12 949个,其中筛选出法律术语1821个。

二 法律术语的长度信息

现有的统计[3-5]显示,科技领域的术语70%以上主要是由2~6个字组成。法律领域术语又是什么情况呢,项目组将通过以下步骤分析给出。

首先,对加有标号的术语词条进行如下处理:如果标号括住整个词条,则去掉标号;如果标号只括住部分词条,则保留标号。举例如表1所示:

表1 对加有标号的术语词条的处理

1.字长

字长信息统计如图1所示:

图1 法律术语字长统计

统计发现法律术语字长范围在1~53个之间,其中大部分法律术语字长范围集中在2~20个之间,并且2~20字长度的法律术语都出现超过100次,总数占整个法律术语库的95.6%。其中4字长的法律术语数量最多,为1843个,占整个法律术语库的21%。此外,5字术语和6字术语也较多,4字术语、5字术语和6字术语三者共占整个法律术语库的41.9%。该结论与周浪[6]和邢红兵[7]关于科技术语字长信息的结论很类似,共同点是4字术语数量最多,不同点是法律术语在字长的分布上不只是集中在2~6字之间,还扩展到2~20字之间,这是由法律术语的特殊性所决定的。

2.词长

项目组使用了汉语分词系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)对法律术语库进行分词后,获得的词长信息如图2所示:

统计发现法律术语词长分布在1~28个之间,其中单词型术语所占比例为5.5%。由2~4个单词组成的术语最多,共占整个法律术语库的55.3%。由1~12个单词组成的术语占整个法律术语库的96.2%。该结论与张蓉[8]、李芸[9]、周浪[6]分析的科技领域术语词长信息统计结果很接近,共同点是由2~4个单词组成的术语最多,不同点是法律术语的词长分布较宽,分布在1~12个词之间,而科技术语一般词长分布在2~6个词之间。对于法律术语库中术语词长分布的举例见表2。

图2 法律术语词长统计

表2 法律术语库中术语词长分布特征举例①

法律术语字长和词长的这些分析结果与科技领域术语各项已有的研究成果相近。

总结如下:

(1)法律术语也是以词组型术语为主;

(2)2~4个单词组成的法律术语数目最多;

(3)由于法律术语在标点符号使用上的频繁等特点导致法律术语的单词构成宽度较大,一般为2~10个单词。

三 法律术语结构的词法规则

根据上面总结出的法律术语词长分布特征,我们把法律术语分为三类:(1)单词型法律术语;(2)词长为2~4的词组型法律术语;(3)词长大于4的词组型法律术语。如图3所示:

图3 三类不同长度法律术语的出现频率

传统的术语研究将名词短语视为术语的唯一候选,虽然这种限制保证了一定的正确率,但是牺牲了召回率。笔者通过对法律术语库进行分析标注后发现,法律术语也可以是其他类型的词/词组,应该以较宽松的语法规则从语料库中抽取术语候选项。

1.单词型法律术语的词性分布特征

表3 单词型法律术语的词性分布特征

从表3的分布特征来看,单词型法律术语的主要词性是动词和名词,其他词性所占比率较少。这一结果与科技领域单词型术语有差异,科技领域术语主要是以名词性术语为主。

2.2~4词法律术语的词法模式

(1)2词术语的词法模式

法律术语库中有1995条2词法律术语,共有105种词法模式,其中出现20次以上的模式有16种,这16种词法模式共涵盖了1753条2词术语,总体覆盖率是87.9%,其中前5种词法模式如表4。

表4 2词法律术语中的前5种词法模式

(2)3词术语的词法模式

法律术语库中有1791条3词法律术语,共有363种词法模式,其中出现20次以上的模式有18种,这18种词法模式共涵盖了914条3词术语,总体覆盖率是51%,其中出现次数超过100次的4种词法模式如表5。

表5 3词法律术语中的前4种词法模式

(3)4词术语的词法模式

法律术语库中有1097条4词法律术语,共有565种词法模式,其中出现20次以上的模式有5种,这5种词法模式共涵盖了116条4词术语,总体覆盖率是10.6%,其中出现次数超过20的5种词法模式如表6。

表6 4词法律术语中的前5种词法模式

(4)4词以上法律术语的词法模式

法律术语库中有3458条4词以上法律术语,共有2694种词法模式,其中出现20次以上的模式有4种,这4种词法模式共涵盖了134条4词以上术语,总体覆盖率是3.9%,其中出现次数超过20的4种词法模式如表7。

表7 4词以上法律术语中的前4种词法模式

从法律术语词法特征的分析结果来看,词法种类越来越多,单词型和词数较少的法律术语词法特征还有典型性,词数较多的法律术语词法特征太过分散,法律术语库规模和收集手段的片面性导致不可能涵盖所有单词/词组型法律术语的词法特征,但是这些特征都与科技领域术语的词法特征相近。

根据以上统计数据总结出词组型法律术语如下特点:

特点一:词组型法律术语候选项中至少有一个词属于“n”“v”或“a”;

特点二:63%的词组型法律术语都包含法律术语部件,该法律术语部件是前面项目组标注法律术语候选库时使用的部件,只是简单的单字部件,如果项目组完善法律术语部件,词组型法律术语包含法律部件的百分率会更高;

特点三:2~4词构成的词组型法律术语的词法模式可以应用于词组型法律术语自动抽取研究中,但是4词以上的词法模式还有待总结和分析。

注释

①所有表中使用的词性标注符号的具体含义为:v表示动词,n表示名词,vn表示名动词,a表示形容词,ng表示名语素,b表示区别词,c表示连词,ad表示副形词,t表示时间词,j表示简称略语,r表示代词,u表示助词,ag表示形语素,w表示标点符号,ns表示地名,k表示后接成分,f表示方位词,l表示习用语,i表示成语,d表示副词,q表示量词。

[1]Anne Condamines.Terminology:New needs,New Perspectives[J].Terminology,1995,2(2):218-238.

[2]吴云芳,穗志方,邱利坤,等.信息科学与技术领域术语部件描述[J].语言文字应用,2003(4):34-39.

[3]冯志伟.现代术语学引论[M].北京:语文出版社,1997.

[4]李芸,王强军.信息技术领域术语自动提取研究[C]∥辉煌二十年——中国中文信息学会二十周年学术会议论文集,2001.

[5]穗志芳.科学技术领域术语自动识别策略[C]∥第二届中日自然语言处理专家研讨会论文集,2002.

[6]周浪.中文术语抽取若干问题研究[D].南京:南京理工大学博士研究生学位论文,2009.

[7]邢红兵.信息领域汉语术语的特征及其在语料中的分布规律[J].术语标准化与信息技术,2000,(3).

[8]张蓉.术语定义抽取、聚类与术语识别研究[D].北京:北京语言大学博士论文,2006.

[9]李芸.信息科学和信息技术术语概念体系研究[D].北京:北京语言大学博士论文,2003.

Features of Legal Terms

Narisong LIU Qing ZHU Lei

This paper introduces three ways on quickly obtaining candidate set of legal terms,and also introduces the procedures of constructing the legal term glossary based on annotation work.We finally obtain the length of legal terms and a series of lexical features based on the research of legal term glossary.

legal term,length of term,lexical features

N04;D9

A

1673-8578(2011)04-0022-05

2011-02-25

国家自然科学基金专项基金项目“基于语料库的术语自动处理关键技术研究”(J1025001)

那日松(1980—),女,内蒙古兴安盟人,蒙古族,博士,杭州师范大学应用语言学研究中心助理研究员,研究方向:计算语言学、术语学。通信方式:narsujin@163.com。

猜你喜欢

词法词组术语
谈对外汉语“词法词”教学
副词和副词词组
2010年高考英语“相似”考题例析