标点符号在法律术语自动抽取研究中的作用
2009-09-29那日松
摘要:基于香港双语法例语料库,从法律术语与标点符号之间的联系出发,探讨法律术语及法律术语定义的自动抽取研究中标点符号的作用。
关键词:法律术语,自动抽取,标点符号
中图分类号:N04;H155
文献标识码:A
文章编号:1673—8578(2009)04-0027-04
一引言
双语法例资料系统(Bilingual Laws InformationSystem,简称BLIS)是中华人民共和国香港特别行政区政府建立的一个关于所有现时实施的香港法律的主体条例及附属法例的中文文本和英文文本的资料系统,可以通过网络进行检索。其主页如图1所示:
BLIS包括如下内容:
1香港成文法的中文及英文文本
所有现实实施的香港主体条例及附属法规;
所有香港主体条例及附属法规(包括已经废除的法规)追溯到1997年6月30日为止的过去版本。
2宪法类文件、全国性法律及其他有关文件
中华人民共和国宪法、香港特别行政区基本法、全国人民代表大会的有关决定、全国人民代表大会常务委员会的有关决定及解释,以及中英联合声明;
在香港特别行政区实施的全国性法律;
香港特别行政区立法会议事规则。
3香港法例所用的词汇用语
英汉法律词汇;
汉英法律词汇。
4条例主题索引
条例中文主题索引;
条例英文主题索引。
可以看出,BLIS是研究香港法律术语的一个非常宝贵的语言资源,基于该语料将分析和抽取法律术语和法律术语定义。
使用计算机来自动抽取术语,必须首先找出术语的形式标记。经过仔细观察发现,BLIS文本中的标点符号,特别是双引号、书名号和括号等标点符号,可以作为BLIS法律术语抽取的重要的形式标记。
本文分析和总结了BUS中的标点符号与法律术语及法律术语定义之间的联系和规律,并利用它们之间并存的特征来自动提取法律术语和法律术语定义句。
研究中使用了21万个句子组成的中文BLIS语料。笔者选择双引号、书名号和括号等符号作为研究的切入点,这些标点符号与BLIS语料中的法律术语、法律术语定义有着紧密的联系。
二双引号、圆括号与法律术语定义之间的联系
观察部分语料后发现,法律术语定义句中经常有双引号和圆括号同时出现的现象,基于此特点做了如下几项工作,来探讨法律术语定义句与双引号和圆括号之间的规律和联系,并抽取出BLIS中有标点符号标记的法律术语定义句。
(一)抽取包含双引号句
从21万个句子中抽取出所有包含双引号的句子,做法如下:假设双引号是成对出现的,但是一个句子中可以有成对出现的双引号和单个出现的双引号(记录纬度的时候会用到单个双引号),所以在设计程序的时候选择双引号出现的个数大于等于2的句子,最起码保证不会丢失成对出现的双引号,但是也会抽取出一些不符合条件的句子来。
使用这样的方法,在21万个中文句子中获得13833个句子(包含重复的)。
部分实例:
例1、“原有法律”(1aws previously in force)指在紧接1997年7月1日之前属有效并已被采用为香港特别行政区法律的普通法、衡平法、条例、附属法例(亦指附属立法)及习惯法;
例2、“作为”(act),用于罪行或民事过失时,包括一连串作为、任何违法的不作为和一连串违法的不作为;
例3、“行政上诉委员会”(Administrative Ap—peMs Board)指根据《行政上诉委员会条例》(第442章)设立的行政上诉委员会(由1994年第6号第32条增补);
例4,“成人”“成年人”(adult)指年满18岁的人(由1990年第32号第6条修订)。
结果分析:
1、21万个句子中只有1万多个句子包含双引号句,说明包含双引号的句子占所有句子中的小部分,所以该项研究也只是法律术语研究的小部分内容。
2、观察后,在1万多个双引号句子中,双引号和圆括号经常出现在同一句子中,双引号中是中文法律术语,圆括号中是该中文法律术语对应的英文法律术语,而且双引号和圆括号在位置上紧邻。根据这样的特点开始做下一步工作。
(二)抽取包含双引号紧临左圆括号句
在第一步的结果上,抽取了所有包含双引号紧邻左圆括号的句子,共获得11643个符合条件的句子。但是包含双引号不包含圆括号的句子也有可能是法律术语定义句,或包含双引号句也可能不是法律术语定义句。
例如:
例1“上午”一词表示由午夜至随后的正午的一段时间,“下午”一词表示由正午至随后的午夜的一段时间;如这些词联用两次于某一指定时间,或联用于“日落”或“日出”等词,须解作关乎一段连接的时间。
例2“九龙”指九龙半岛的一部分,即在1860年10月24日成为香港一部分的该部分。
例3(a)“本人,谨以至诚,据实声明及确认”;(由1997年第123号第5条修订)
只包含双引号的句子(2190个)中大部分不是法律术语定义句,但是双引号中的字符串大部分还是法律术语,不过有必要对左右双引号中的词串的长度做个限定,例如不能大于10。
虽然这一步的结果中大部分已经是法律术语定义句,但是考虑到法律术语定义句中应该包含一些和“定义句”相关的特征词,经观察,“指”“包括”“含义”三个词在定义句中出现频率比较高,因此做了下一步的实验。
(三)抽取包含特征词的句子
在上一步结果的基础上,找出包含“指”“包括”“含义”几个特征词的句子。
结果如下:
包含“指”“包括”“含义”中任何一个词的句子共有11233(重复)个;
包含“指”的句子有9 007个;
包含“包括”的句子有2 394个;
包含“含义”的句子有694个;
不包含“指”“包括”“含义”中任何一个词的句子有410个。
结果分析:
1包含任一以上三个特征词的句子:除了一些断句现象外,大部分句子是法律术语定义句。而且大部分句子中包含结构“就……而言”,这样的句子需要再重新定位和寻找真正法律术语定义。
例如“适当审裁体”(appropriate tribunal)就督察而言,具有第16条给予该词的含义,而就初级警务人员而言,则具有第4条给予该词的含义。
从该例子看,需要再找到第16条和第4条才能真正找到该法律术语的定义。在抽取到的结果中有1255处存在该现象。
2不包含任一以上三个关键词的句子:
1)有断句现象:该现象是在进行句子切分的时候遗留下来的问题。
例“立法会”(Legislative Council)一
2)非法律术语定义句,声明性句子:
例“市值租金”(prevailing market rent)一词,凡于本条例的条文内出现,均须与1983年6月10日前该条文内的“公平市值租金”(fair market rent)一词作相同解释。
3)句子中包含定义句特有的特征词,而且是法律术语句,但是这些句子的数量很小,这些关键词有:“被称为、解释作、解释、含义、解释为、意义、定义、称为、当作、须解、已予界定、即、为、称、视为、说明”。
例1凡付款予持票人的汇票的持有人以交付方式转让汇票而没有在汇票上背书,则该人被称为“以交付方式转让汇票的移转人”(transferor bydelivery)。
例2在第49至49R条中,凡提述“从资本中拨款支付”(payraent out 0f capital)之处,均须按照第491条解释。
例3“作商业用途”(use for trade),就度量衡器具而言,具有第10条给予该语句的意义。
4)无任何标志词,但句子是法律术语定义句。
例“离子浓度测量法”(ion metric method)是基于被测量的辐射所产生的离子化情况而进行的一种测量方法。
5)特殊情况
例1
“你是否想就控罪作出响应?除非你有话要说,否则无须说话,但无论你说些什么,都会以书面记录下来,并可能在你的审讯中作为证据。”(由1965年第49号第16条修订;由1983年第48号第3条修订)
例2存放食物及水的粮食箱须显明地标示“food”或“water”(视何者适当而定)。
例3
“(e)任何交由根据《地产代理条例》(第5ll章)第4条设立的地产代理监管局行使司法管辖权的诉讼,而地产代理监管局并没有根据或依据该条例第49条拒绝就该诉讼行使司法管辖权。”
例4董事局由一名主席(“主席”(the Chair,man))及普通成员组成,主席由总督委任,普通成员人数亦由总督决定(由9至15名不等)。
像如上情况,需要长度限制和判断编码(英文还是中文)来筛选后决定是否为法律术语定义句。
法律术语定义句的搜索过程可用如下流程图表示(图2):
最终获得了10615个法律术语定义句。有些结果还需要人工再校对和再处理。如果假设包含“就…而言”结构句子也是法律术语定义句,那么随机抽样错误率较低。
现在只是抓住法律术语与标点符号之间明显的特点分析了双引号法律术语及定义句之间的关系。BLIS定义句的更多特点还有待继续研究和讨论。
三双引号和书名号与法律术语之间的联系
前面结合标点符号自动抽取了法律术语定义,下面再结合双引号和书名号来自动抽取法律术语。
(一)结合双引号抽取法律术语
经观察发现,在BIAS语料库中有双引号标记的字符串大部分是法律术语,但是也有一些特殊情况。
1带双引号标记的法律术语的特殊情况分析:
1)在一个句子中双引号不一定成对出现,人们在标注纬度时也可以使用单个的双引号。
例最西南端位于北纬22°20′39″
2)除了法律术语之外,其他一些特殊符号、项目符号、数字和日期等也带有双引号标记。
例“&”“(A)”“2年”“3个月”
3)有些是由于语料从繁体字转换为简体字时遗留下来的问题,在双引号中会看到一些内容混乱的现象。
例“……业主立案法团”“《保护野鸟及野生哺乳动物条例》+(附表7)”“《公众生(食物)条例》“《国际海事组织谷物规则》”
2提取符合如下条件的法律术语:
由于带有双引号标记的不一定都是法律术语,所以按照如下步骤筛选出法律术语候选集。
步骤:
1)带双引号;
2)双引号中的字长大于等于1;
3)双引号中不再有其他标点符号出现。
根据上面的步骤进行法律术语提取,得到了中文法律术语不重复项8022个。该结果还有部分不是法律术语,需要人工或者用其他方法去除。
(二)书名号与法律术语的联系
观察发现,在BIAS中书名号中的字符串大部分是法律条例,也属于法律术语。而且书名号和法律术语之间的联系没有双引号复杂,因此将提取的所有书名号词串共l 361个记录在法律术语库中。
例如:《公司条例》《破产条例》《证券及期货条例》《法律执业者条例》《资本规则》《精神健康条例》。
四总结
通过对BLIS语料的特点分析,发现可以利用BIAS语料中标点符号、法律术语和法律术语定义之间的联系来辅助抽取有特殊标记的法律术语和法律术语定义。其中有标点符号特点但不是法律术语或法律术语定义的情况,有待进一步提出排除规则和其他解决方案。这也说明了某些标点符号在用法上的复杂性。
注释
①见http://www,1egislation,gOV,hk/
②由于中英文双引号经常有混用的情况,所以我们在本实验中,中英文双引号都考虑进来。
③断句现象是由于在语料中错误的自动切分句子造成的。
④不把“是”作为定义句的特征词的情况下。
参考文献
[1]Heribert Picht,Jennifer Draskau,Terminology:An Intmduc·tion[M],University 0f Surrey En~and,1985
[2]GB/T 15834—1995,标点符号用法[s]
[3]冯志伟,现代术语学引论[M],语文出版社,1997
[4]张榕,术语定义抽取、聚类与术语识别研究[D],北京:北京语言文化大学,2003
[5]张艳,汉语术语定义的结构分析和提取[D],北京:中国科学院,2003
[6]那日松,法律术语抽取研究[D],北京:中国传媒大学,2008